Исследование зависимости речевых параметров от психоэмоционального состояния человека

  • Вид работы:
    Дипломная (ВКР)
  • Предмет:
    Психология
  • Язык:
    Русский
    ,
    Формат файла:
    MS Word
    1,21 Мб
  • Опубликовано:
    2012-11-08
Вы можете узнать стоимость помощи в написании студенческой работы.
Помощь в написании работы, которую точно примут!

Исследование зависимости речевых параметров от психоэмоционального состояния человека

 

 

 

 

 

 

 

 

 

 

 

Реферат

«Исследование зависимости речевых параметров от психоэмоционального состояния человека»

В рамках оптимизации интерфейса человек-машина стоит задача обеспечения коммуникации между ЭВМ и человеком посредством голосовых команд. В разработке этого интерфейса важно учитывать не только лингвистическую информацию, но и эмоциональную составляющую речи, так существенная доля прагматически важной информации в речевой коммуникации передается невербально. Поэтому исследования в этой области направлены как на синтез искусственной эмоциональной речи, так и на определение психоэмоционального состояния человека. Методы исследования эмоциональной речи можно разделить на субъективные (тесты по идентификации эмоций) и объективные (расчёт и анализ статистических характеристик). Существующие объективные системы различаются количеством распознаваемых эмоций, типами используемых баз данных, акустическими параметрами речевого сигнала, а также алгоритмами классификаторов. Однако проблема автоматического распознавания эмоционального состояния говорящего по голосу на данный момент не является решенной.

Целью данного исследования является определение наиболее эффективного набора речевых характеристик, выявление зависимости между основными параметрами и психоэмоциональным состоянием человека, а также выбор оптимальных параметров классификации.

Анализ эмоционального состояния говорящего может быть основан на двух составляющих звуковой речи: вербальной (лингвистической) и невербальной (паралингвистической). Так как лингвистическая компонента является достаточно сложной для автоматического анализа, чаще всего исследуется зависимость паралингвистической составляющей от изменения психоэмоционального состояния. Паралингвистические параметры легко рассчитываются и могут быть подвергнуты статистическому анализу, что позволяет получить количественные оценки состояний. К наиболее исследуемым паралингвистическим параметрам относят: частоту основного тона, интенсивность, нелинейные характеристики на основе оператора ТЕО.

В рамках исследования в качестве изначального набора были выбраны следующие характеристики: джиттер, шиммер, максимальное изменение частоты основного тона внутри и между сегментами, стандартное отклонение частоты основного тона внутри и между сегментами, среднее, стандартное отклонение, минимальное, максимальное значение ТЕО в критических полосах 51 Гц, 150 Гц, 250 Гц, 350 Гц, среднее, стандартное отклонение, минимальное и максимальное значение энергии сигнала.

Исследования проводились на базе данных EMO-DB [1] немецкой эмоциональной речи, содержащей 187 записей 5 дикторов (мужчин). Использование объективных (однофакторный дисперсионный анализ, многомерное шкалирование, непараметрические корреляции) и субъективных (перцептивный тест) методов анализа, их сравнение, а также эксперименты с нейросетевым классификатором позволили выявить наиболее оптимальный набор параметров классификации, а также эффективный набор речевых характеристик, на основании которых можно судить об изменеии психоэмоционального состояния человека.

Глава 1. Исследование эмоциональной речи

 

Речь - основная форма общения между людьми посредством языковых конструкций, создаваемых на основе определённых правил. Среди функциональных характеристик речи можно выделить следующие:

1)      Семантическую, которая обуславливает возможность её использования для общения посредством обозначения своих мыслей;

2)      Коммуникативную, как средство общения и передачи информации;

)        Эмоциональную.

Помимо лингвистического содержания, важную роль в передаче информации играют эмоции. Эмоциональная функция речи принадлежит к генетически первичным её функциям. При этом эмоциональная окраска речевого сигнала выражается как в изменениях уровня лексико-грамматических параметров, так и в изменении акустико-фонетических параметров.

Изучение эмоциональной речи является крайне интересной, но сложной темой. К первым исследованиям в данной области можно отнести труды Фейрбенкса в конце 1930х годов [2]. С тех пор было проведено достаточно много экспериментов, но, тем не менее, полученные знания не полностью отражают суть явления. Основной сложностью является отсутствие однозначного подхода к исследованию эмоциональной речи. Более того, само понятие «эмоция» до конца не определено. Существует довольно большое множество теорий, каждая из которых отражает лишь отдельные аспекты, в зависимости от того, каким подходом руководствуются исследователи. Тот факт, что эмоции являются смесью биологических и когнитивных процессов, т.е. автоматических и осознанно контролируемых факторов, усложняет однозначное определение данного понятия. Выражения лица, интонации и другие показатели, характеризующие эмоциональность, могут использоваться как для коммуникации, так и для выражения эмоций, делая, таким образом, интерпретацию контекстно - зависимой.

 

.1 Понятие «эмоция»


Понятие «эмоция» используется в литературе в нескольких различных смыслах. В своей статье Кови и Корнелиус [3] приводят следующие, наиболее часто используемые термины.

Прежде всего, это термин «чистая эмоция» («fullblown emotion»). Он используется в тех случаях, когда эмоциональное состояние чётко выражено. Это одна из наиболее изученных форм эмоций, прежде всего потому, что она легко идентифицируется. В тех случаях, когда эмоция рассматривается в этом качестве, обычно формирует критерий «полноты». В зависимости от степени «полноты» эмоция соответствует или не соответствует данной категории. Критерий «полноты» эмоционального состояния зависит от выбранной теории.

Термин «эмоциональный тон ощущений» («underlying emotion») характеризует эмоциональную окраску, свойственную большинству психологических состояний. В качестве примера, приведённого Кови и Корнелиусом, рассматривается дружелюбность, которая, не являясь в полном смысле эмоцией, тем не менее, подразумевает под собой некоторую позитивную эмоциональную окраску. Эта форма эмоции наиболее сложна для изучения. Многие исследователи склонны рассматривать этот тип эмоций как относящийся непосредственно к передаче информации.

Разница между этими двумя эмоциональными категориями существенна, однако существует множество промежуточных эмоциональных состояний, которые слишком сильно выражены, для того, что бы считаться эмоциональной окраской, но и в тоже время недостаточны, для того, что бы их можно было отнести к первой категории. Термин, предложенный Кови и Корнелиусом, характеризует их как «настроение» («emotional states»).

Наконец, термин «чувства» («emotion-related states») характеризует состояния, которые не являются эмоциями, но имеют с ними некоторые общие аспекты, например состояния возбуждённости, взволнованности, и т.д.

1.2 Базовые эмоции


Для описания эмоций, соответствующих некоторым фундаментальным физиологическим и психологическим процессам, в психологии существует термин базовые эмоции [4]. Существуют различные определения базовых эмоций, предложенных Плутчиком [5], Экманом [6], Изардом [7] и др., но их объединяет стремление к выделению небольшого количества эмоций. Математической аналогией является понятие базиса векторного пространства.

Число базовых эмоций обычно не велико (в ранних исследованиях меньше 10, в современных - от 10 до 20). В соответствии с теорией Изарда, например, существует 10 базовых эмоций: радость, интерес, удивление, печаль, гнев, отвращение, презрение, страх, стыд, вина. В качестве основных критериев базовых эмоций приводятся следующие:

). Базовая эмоция проявляет себя при помощи выразительной и специфической конфигурации мышечных движений лица (мимики);

). Базовая эмоция влечет за собой отчетливое и специфическое переживание, которое осознается человеком;

). Базовые эмоции возникли в результате эволюционно-биологических процессов;

). Базовая эмоция оказывает организующее и мотивирующее влияние на человека, служит его адаптации.

Исследования в области эмоциональной речи строятся различным образом, в зависимости от того, какие из базовых эмоций принимают за основные.

Кови и Корнелиус в своей статье структурировали различные исследования в этой области, систематизировав основные эмоции в таблицу (таблица 1.1).

1.3 Теории возникновения эмоций

 

.3.1 Теория Дарвина

В 1872г. Ч. Дарвин опубликовал книгу "Выражение эмоций у человека и животных", которая явилась поворотным пунктом в понимании связи биологических и психологических явлений, в частности, организма и эмоций. В ней было доказано, что эволюционный принцип применим не только к биологическому, но и психолого-поведенческому развитию живого, что между поведением животного и человека непроходимой пропасти не существует. Эти наблюдения легли в основу теории эмоций, которая получила название эволюционной. Эмоции согласно этой теории появились в процессе эволюции живых существ как жизненно важные приспособительные механизмы, способствующие адаптации организма к условиям и ситуациям его жизни. Телесные изменения, сопровождающие различные эмоциональные состояния, по Дарвину, есть не что иное, как рудименты реальных приспособительных реакций организма. И действительно, общность эмоциональных выражений человека и высших животных, стоящих наиболее близко к человеку, настолько очевидна, что не поддается никакому оспариванию.

Таблица 1.1. Базовые эмоции

Бенс и Шерер (1996)

Лазарус (1999)

Экман (1999)

Кови и др. (2003)

ярость

гнев

гнев

гнев

раздражение

-----

-----

-----

страх, ужас

испуг

страх

боязнь

печаль, уныние

печаль

печаль

грусть

отчаяние, горе

-----

-----

-----

беспокойство

беспокойство

беспокойство

волнение

радость

радость

чувственность

радость

-----

-----

удовольствие

-----

восторг

-----

-----

-----

-----

-----

забавность

забавность

-----

-----

удовлетворенность

радость

-----

-----

-----

заинтересованность

-----

-----

возбуждение

возбуждение

скука

-----

скука

скука

безразличие

-----

-----

-----

-----

-----

-----

расслабленность

отвращение

отвращение

отвращение

-----

презрение

-----

презрение

-----

-----

гордость

гордость

-----


Представление о базовых эмоциях - небольшом числе эмоций, сформировавшихся в процессе эволюции - является частью дарвинистской теории. Важное открытие эволюционной теории, общность эмоций, продемонстрировал в 1993 Экман [6]. Он доказал, что по крайней мере 6 эмоций (радость, печаль, гнев, страх, удивление, отвращение) выражаются на лице схожим образом в различных культурах. Но, несмотря на общее выражение эмоций, существуют специфичные правила поведения в той или иной ситуации. Правила поведения определяют кто, когда, и какие эмоции должен проявлять.

1.3.2 Теория Джеймса-Ланге

Теория эмоций Джеймса-Ланге [8] была выдвинута независимо друг от друга американским философом и психологом Джеймсом и датским медиком Ланге в 80-90х годах прошлого столетия. Согласно этой теории, возникновение эмоций обусловлено вызываемыми внешними воздействиями изменениями, как в произвольной двигательной сфере, так и в сфере непроизвольных актов сердечной, сосудистой, секреторной деятельности. Совокупность ощущений, связанных с этими изменениями, и есть эмоциональное переживание. Если Джеймс связывал эмоции с широким кругом периферических изменений, то Ланге - только с сосудистодвигательной системой. Таким образом, периферические органические изменения, которые обычно рассматривались как следствие эмоций, объявлялись их причиной. Теория эмоций Джеймса-Ланге представляла собой попытку превратить эмоции в объект, доступный естественному изучению. Однако, связав эмоции исключительно с телесными изменениями, она перевела их в разряд явлений, не имеющих отношения к потребностям и мотивам, лишала эмоции их адаптивного смысла, регулирующей функции. Проблема произвольной регуляции эмоций трактовалась при этом упрощенно, считалось, что нежелательные эмоции, например, гнев, можно подавить, если намеренно совершать действия, характерные для положительных эмоций. Основные возражения против данной теории эмоций, выдвигаемые в психологии, относятся к механистическому пониманию эмоций как совокупности ощущений, вызываемых периферическими изменениями, и к объяснению природы высших чувств.

1.3.3 Когнитивная теория

Согласно когнитивной теории положительное эмоциональное переживание возникает у человека тогда, когда его ожидания подтверждаются, а когнитивные представления воплощаются в жизнь, т.е. когда реальные результаты деятельности соответствуют намеченным, согласуются с ними, или, находятся в консонансе. Отрицательные эмоции возникают и усиливаются в тех случаях, когда между ожидаемыми и действительными результатами деятельности имеется расхождение, несоответствие или диссонанс. Субъективно состояние когнитивного диссонанса обычно переживается человеком как дискомфорт, и он стремится как можно скорее от него избавиться. Выход из состояния когнитивного диссонанса может быть двояким: или изменить когнитивные ожидания и планы таким образом, чтобы они соответствовали реально полученному результату, или попытаться получить новый результат, который бы согласовывался с прежними ожиданиями.

В современной психологии теория когнитивного диссонанса нередко используется для того, чтобы объяснить поступки человека, его действия в различных социальных ситуациях. Эмоции же рассматриваются в качестве основного мотива соответствующих действий и поступков. Лежащим в их основе когнитивным факторам придается в детерминации поведения человека гораздо большая роль, чем органическим изменениям. Доминирующая когнитивистская ориентация современных психологических исследований привела к тому, что в качестве эмоциогенных факторов стали рассматривать также и сознательные оценки, которые человек дает ситуации. Полагают, что такие оценки непосредственно влияют на характер эмоционального переживания.

1.3.4 Социально конструктивистская теория

Самая молодая из теорий разработана Корнелиусом и Аверилом [3]. В ней, эмоции рассматриваются как социальные паттерны, которые человек усваивает в процессе обучения и культурного развития. Они выполняют социальную цель, регулируя различными путями отношения между индивидами. Не только выражение эмоций, но и сами по себе эмоции включают в себя субъективный опыт на основе культурного развития. Главное отличие от теории Дарвина состоит в правилах воспроизведения, которые составляют так называемые социальные фильтры для выражения биологически заложенных эмоций. Данная теория учитывает влияние существующих биологических фундаментов эмоций, однако, их важность рассматривается как вторичный компонент социально образующих механизмов. Эмоции рассматриваются как элементы культуры, вместе с этим они имеют не только культурные, но и биологические и, что важнее всего, социально - структурные основания. Так как людьми движут конкретные эмоциональные переживания, эмоции необходимо рассматривать в контексте конкретных социальных взаимоотношений.

1.4 Характеристики речи


Идентификация параметров, характеризующих психоэмоциональное состояние, является комплексной задачей. Невербальное выражение эмоционального состояния берёт своё начало в примитивной аналоговой сигнальной системе, речь же является добавлением к этой системе в процессе эволюционного развития. Многие акустические характеристики содержат в себе информацию соответствующую как вербальным, так и невербальным аспектам. При исследовании этих характеристик необходимо иметь в виду их двойственную природу. Следует заметить, что некоторые параметры, имеющие огромное значение для идентификации, до сих пор не изучены. Это связано, прежде всего, с технической доступностью, нежели с вопросами теоретической мотивации.

1.4.1 Паралингвистические характеристики

К наиболее исследуемым паралингвистическим аспектам можно отнести линейные характеристики (значение и диапазон основного тона, темп речи и значение интенсивности), и нелинейные характеристики на основе оператора ТЕО. В этом случае взаимосвязь эмоционального состояния и акустических характеристик можно исследовать с помощью ковариационной модели.

Бенс и Шерер, например, в 1996 [9] произвели измерения акустических характеристик для 14 психоэмоциональных состояний. При этом они использовали только наиболее распознаваемые из этих состояний. Акустические характеристики включали в себя: значение основного тона, среднеквадратичное отклонение, значение энергии, была измерена длительность гласных и согласных, а также спектральные характеристики. После расчёта корреляции акустических характеристик с независимыми переменными (пол, тип фраз, эмоции и т.д.), был сделан вывод о том, что эмоции имеют значительное влияние на изменение этих речевых параметров.

Линейные характеристики. Частота основного тона

Формирование гласных и носовых согласных звуков речи в голосовом аппарате человека определяется частотой колебания голосовых связок, задающих основной тон (ОТ) речи. Для каждого человека существует характерное только для него распределение основного тона по частоте. Другой характеристикой ОТ является его мелодика, представляющая собой усредненные за некоторый интервал значения частоты основного тона.

Статистические измерения частоты ОТ можно производить по осциллограммам речевого сигнала на выходе высококачественного микрофона и по рентгенограммам колебаний голосовых связок, полученным при произнесении диктором отдельных звукосочетаний и фраз. С вероятностью 0,95 основной тон мужских голосов расположен, в интервале от 97 до 195 Гц. Для женских голосов этот интервал составляет 195-320 Гц.

Для получения распределения относительной длительности вокализованных и невокализованных сигналов были проведены статистические измерения по осциллограммам речевого сигнала для мужских и женских голосов. В результате проведенных исследований выяснилось, что средняя длительность невокализованных участков (шумового сигнала) составляет 65 мс при максимальной длительности 160 мс. Средняя длительность гласных составляет 180 мс, согласных - 95 мс, слога дикторской речи - 260 мс.

Линейные характеристики. Громкость речи

Громкость - восприятие разности в физической силе произносимых звуков, определяемой как субъективно, так и инструментально. За нормальную громкость приняты показатели 50-80 дБ (при постоянном фоновом шуме до 10 дБ). Также различают: умеренное повышение (80-90 дБ), значительное повышение (90-110 дБ), крик (выше 110 дБ), умеренное понижение (40-50 дБ), значительное снижение (20-40 дБ) и шёпот (менее 20 дБ).

Громкость напрямую влияет на способность восприятия звуков и их различия. Эта способность и является главным объектом исследований. В частности, большое внимание уделяется исследованию интенсивности сигнала, с помощью которой могут быть измерены различные характеристики, такие как амплитуда, среднеквадратичное отклонение и т.д. Наибольшее распространение получил метод оценки «абсолютной громкости», предложенный Звикером в 1999 [10].

Линейные характеристики. Паузация

Паузы - наличие перерывов в ходе сообщения (как синтаксически обоснованных, так и без семантической наполненности). Оценивается продолжительность пауз: короткие - до 3 с, средние - 3-7 с, длинные - более 7 с. Важен учет семантики участка высказывания, в котором выявлена пауза, так как последняя может подчеркивать субъективную значимость переживаний, их эмоциональную насыщенность. Наличие пауз может служить косвенным указателем на депрессию, диссимуляцию переживаний и т.д. Необходимо по контексту высказывания выявить семантику пауз, так как иногда молчание красноречиво и емко передает те или иные аспекты переживаний.

В своей работе Розенфельд [11] использовал длительность пауз для разделения трёх состояний: нормального, депрессивного и маниакального. Было предложено использовать десять переменных: итоговое время разговора (мс), итоговое время пауз (мс), общее время фрагмента речи (мс), скорость речи (фонем/с), скорость артикуляции (фонем/с), задержка сигнала (мс), средняя длина паузы (мс), возможная длина сегмента, возможная длина паузы и максимальная амплитуда речи. В результате измерения этих характеристик три состояния удалось достоверно различать друг от друга.

Нелинейные характеристики. Оператор ТЕО

Традиционная линейная звуковая теория считает, что поток воздуха из голосовых связок распространяется через голосовой тракт как плоская волна, где пульсирующий поток - это рассмотренный источник речеобразования. В соответствии с работой Теагера [12] это предположение может не выполняться, так как поток фактически расщепляется, образуя сопутствующие вихри, распределенные в голосовом тракте. Теагер предположил, что реальный источник речеобразования - это нелинейные взаимодействия вихревого потока. Основываясь на теории простой колебательной системы “струна - груз”, Теагер предложил использовать энергетический оператор для измерения энергии речи, которая производится нелинейным процессом. Этот оператор получил название TEO.

В своей работе Зоу [13] используются различные параметры, рассчитанные на основе нелинейного оператора TEO. На рисунке ниже (рисунок 1.1) сравниваются результаты парной классификации эмоциональных состояний: нейтрального, раздраженного, кричащего, а также этих же состояний в присутствии шума.

Рисунок 1.1 Результаты парной классификации эмоциональных состояний

В первом столбце показаны результаты для автокорреляционной функции TEO оператора, во втором - классификация с помощью линейного анализа основного тона, в третьем - классификация по автокорреляционной функции для TEO, предварительно отфильтрованного в нескольких частотных полосах, соответствующих полосам пропускания слуховой системы человека. Как показывает сравнение результатов, последний метод на 5% улучшает уровень классификации, обеспечиваемый линейным методом анализа основного тона, и достигает 93% правильной классификации.

1.4.2 Лингвистические характеристики

Как и паралингвистические аспекты, вербальные составляющие играют немаловажную роль в определении психоэмоционального состояния. В этом случае взаимосвязь эмоционального состояния и лингвистических характеристик можно исследовать с помощью конфигурационной модели.

Одно из первых исследований, изучивших вклад лингвистических характеристик в эмоциональную компоненту речи выполнено Шерером, Ладдом и Силверманом в 1984 [2]. В тестах на восприятие, использующих произвольный материл, предоставленный социальным агентством, они нашли доказательство влияния каждой из моделей. Доказательство состояло во взаимосвязи типа фразы (wh-вопрос и да/нет вопрос) и формы контура основного тона в конце фразы. Только в случае да/нет вопроса, форма контура основного тона в конце фразы была убывающей, что воспринималось как укоризненность и даже агрессивность.

При изучении лингвистической функции интонации, эмоциональное её значение было обнаружено как побочное явление. Андреева и Берри [14] исследовали влияние интонации на различие между фразами. В числе прочих вещей, было замечено, что интонация вопросов, представленных в форме, требующей ответа, воспринималась как утверждение, причём с негативной эмоциональной окраской (злость, недовольство).

Стиббард (2001) [15], анализируя спонтанную эмоциональную речь, сделал вывод о том, что низкий тон акцента возникает гораздо чаще в речи с эмоциональным состоянием, соответствующим грусти. Таким образом, не смотря на существования очевидной зависимости между лингвистическими параметрами и психоэмоциональным состоянием, ограниченное число баз данных, а также отсутствие возможности статистической оценки этих параметров, затрудняет исследование в этой области.

1.5 Методы исследования эмоциональной речи

 

.5.1 Субъективные методы

Эмоциональные категории

Идея того, что эмоции могут быть систематизированы в соответствии с несколькими базовыми категориями, принадлежит Вундту (1896) [16]. Вундт предложил использовать три категории для оценки эмоций в виде независимых шкал. Это такие категории как: приятность - неприятность, активность - пассивность, напряжённость - расслабленность. Однако его предположение не было подкреплено экспериментальными данными. Первые же исследования в этой области принадлежат Шлосбергу (1941) [17]. Его эксперимент заключался в оценке выражения лица по шкале, состоящей из 6 эмоциональных категорий. Результаты исследования подтвердили принятую систематизацию, большинство из ответов чётко соответствовали одной из категорий. Также было установлено, что шкала должна представлять собой окружность. Двухмерная структура, такая как круг, требует двух категорий для определения составляющих её элементов. В отсутствие второй категории круг превратился бы в прямую линию. Пытаясь определить название категорий, Шлосберг пришёл к выводу, что наиболее важной является категория приятность - неприятность.

Другой подход в определении категорий оценки эмоций был использован Осгудом в 1957 [18]. Категории эмоциональности, присущие объектам речи, оценивались с помощью шкалы парных прилагательных. С использованием пятидесяти прилагательных, (таких, как тяжёлый - лёгкий, сладкий - солёный, яркий - тёмный), было произведено описание двадцати объектов (девушка, камень, озеро и т.д.). Факторный анализ ответов показал, что три категории являются фундаментальными для характеризации объекта. Осгуд назвал эти категории: эволюционной, потенциальной и активной.

Основываясь на большом количестве произведённых ранее исследований, Уотсон и Теллеген [19] в 1985 предложили вариант двух мерной структуры. Двум главным измерениям соответствовали позитивные и негативные эмоции. Шкалы позитивных и негативных эмоций в предложенном ими пространстве были повернуты на 45 градусов по сравнению со шкалами активности и оценки. Этот вариант продемонстрировал неопределённость интерпретации структуры измерения данных, так как на самом деле довольно сложно определить, какой из вариантов структур является наиболее точным. В зависимости от типов исследований обе интерпретации могут оказаться действенными.

Довольно интересное описание двух категорий было сделано Кови и др. в 2001 [3]. Они представили эмоциональное пространство в виде двухмерного круга, оси которого были названы «оценка» (от отрицательного до положительного) и «активность» (от пассивного до активного). Здесь была использована категория «оценка» в качестве основополагающего термина когнитивной теории. Категория «активность» также является одним из фундаментальных аспектов эмоций.

Исходя из вышесказанного, можно сделать вывод, что два или три измерения эмоциональности присутствует практически во всех экспериментах. Интересно заметить, что результатом большинства исследований являются одни и те же эмоциональные категории. Наиболее важный вопрос состоит в том, отражают ли данные категории все свойства эмоций, или же упрощают и ограничивают их описание. Безусловно, описание эмоций с помощью измерений или категорий упрощают оценку эмоциональности, при этом игнорируя многие важные её аспекты. С другой стороны, категории рассматриваются как мощное средство представления, охватывающее наиболее важные из факторов, и обеспечивающие сравнение эмоциональных состояний. В частности, измерения особенно необходимы для некоторого рода исследований, например для статистического анализа эмоциональной речи.

Тесты на идентификацию эмоций

Тесты на восприятие являются наиболее распространённым типом исследования речи и эмоций. Некоторое число стимулов представляется слушателю в свободном порядке, каждый из стимулов соответствует одной (и только одной) категории эмоций. Основной особенностью тестов является произвольность интерпретации полученной информации испытуемым, в то время как сама информация является априорным материалом. Такая система тестов получила название произвольно - принудительной.

Этот метод нашёл применение во множестве исследований, в частности в оценке искусственной эмоциональной речи. Главной предпосылкой использования этого метода является контроль за эмоциональной информацией. Существенным условием правильного выполнения теста является то, что сам по себе вербальный контекст не должен быть носителем эмоционального состояния. Обычно для этого используются эмоционально нейтральные предложения.

Обычно число проведённых измерений отражается на результате. Для определения процента вероятности корректных ответов, уровень распознавания, т.е. процент «правильных» ответов в данной категории, сравнивается с уровнем случайных ответов.

Также составляет интерес неправильные ответы (сомнение). Сомнение свидетельствует о схожести в восприятии двух эмоциональных состояний. Метод, исследующий схожесть восприятия, использует матрицу подобий. Она наглядно демонстрирует, какие из категорий наиболее привлекательнее других.

Использование в качестве двух мерной модели круга было предложено Шлосбергом в 1941 [17] на базе матрицы подобий. Он заметил, что при упорядочивании эмоциональных категорий определённым образом, верхняя и нижняя побочная диагональ содержит большинство «неправильных» ответов, это свидетельствует о сходстве в восприятии соседних категорий.

Также следует упомянуть о некоторых недостатках метода. Бенс и Шерер заметили, что если предложено небольшое число категорий, участники склонны выбирать между предложенными категориями, вместо того что бы идентифицировать эмоции. Вторая, может быть самая серьёзная проблема, заключается в невозможности фиксации категорий восприятия, не представленных в ответе. Частичным решением проблемы являются тесты, в которых испытуемым предлагается дать произвольный ответ, т.е. предложить свою эмоциональную категорию. Затем производиться анализ этих ответов с целью выделения определённого количества категорий для будущих вариантов ответа.

Одним из распространённых тестов на восприятие является тест Плутчика [5]. При этом в двух координатной системе изображается круг, где по горизонтальной оси располагается оценка (от положительных до отрицательных эмоций), а по вертикальной оси - активность (от пассивных до активных эмоций). Нейтральное состояние соответствует центру координат. По мере удаления от центра эмоциональное состояние становиться наиболее ярко выраженным. Исследования, выполненные с помощью этого теста, были проведены Джовичичем и др. в 2003 [20]. Испытуемым предлагалось прослушать фрагмент эмоциональной речи (соответствующий одной из выбранных базовых эмоций: гнев, радость, страх, печаль, нейтральное состояние) и расположить в соответствии с их личностной оценкой на круге Плутчика с помощью курсора мышки. На основе этого теста были получены следующие данные. Было выявлено, что нейтральные эмоции располагаются не в центре, а вблизи центра координат с небольшим отклонением. Эмоции страха оказались наиболее рассосредоточены по окружности, это связано с наличием множества градаций данной эмоциональной категории. Поля, соответствующие эмоциям страха и нейтрального состояния, взаимопересекаются, что свидетельствует о сходном восприятии этих эмоциональных состояний.

На рисунке 1.2а показаны результаты теста. Эллипсами обозначены поля, с наибольшей концентрацией, соответствующие каждой из эмоций. На рисунке 1.2б обозначены центры каждого из полей и среднеквадратичное значение отклонений.

а)                                              б)

Рисунок 1.2. Круг Плутчика (а) и статистическое распределение для эмоций (б)

1.5.2 Объективные методы

Метод многомерного шкалирования

Многомерное шкалирование получило свое интенсивное развитие в 60-х годах в работах американских ученых Торгерсона, Шепарда, Краскэла [21, 25]. Задача многомерного шкалирования в самом общем виде состоит в том, чтобы выявить структуру исследуемого множества стимулов. Под выявлением структуры понимается выделение набора основных факторов, по которым различаются стимулы, и описание каждого из стимулов в терминах этих факторов.

Процедура построения структуры опирается на анализ объективной или субъективной информации о близости между стимулами либо информации о предпочтениях на множестве стимулов. В случае анализа субъективных данных решаются одновременно две задачи. С одной стороны, выявляется объективная структура субъективных данных, с другой - определяются факторы, влияющие на процесс принятия решения.

Предположим, что существует координатное пространство, каждая ось которого соответствует одному из искомых факторов. Каждый стимул представляется точкой в этом пространстве, величины проекций этих точек на оси соответствуют значениям или степеням факторов, характеризующих данный стимул. Чем больше величина проекций, тем большим значением фактора обладает стимул. Мера сходства между двумя стимулами обратно пропорциональна расстоянию между соответствующими им точками. Чем ближе стимулы друг к другу, тем выше мера сходства между ними (и ниже мера различия), далеким точкам соответствует низкая мера сходства. Чтобы точным образом измерить близости, необходимо ввести метрику в искомом координатном пространстве; выбор этой метрики оказывает большое влияние на результат решения.

Схема многомерного шкалирования включает ряд последовательных этапов. На первом этапе необходимо получить экспериментальным способом субъективные оценки различий. На втором этапе решается задача построения координатного пространства и размещения в нем точек-стимулов таким образом, чтобы расстояния между ними, определяемые по введенной метрике, наилучшим образом соответствовали исходным различиям между стимулами. Вводится критерий качества отображения, называемый «стрессом» и измеряющий степень расхождения между исходными различиями и результирующими расстояниями. Ищется такая конфигурация точек, которая давала бы минимальное значение этому «стрессу».

Значения координат этих точек и являются решением задачи. Используя эти координаты, строится геометрическое представление стимулов в пространстве невысокого числа измерений. Оно должно быть в достаточной степени адекватно исходным данным.

Эксперимент, проведенный Джовичичем и др. (2003) [20] позволил наглядно интерпретировать с помощью многомерного шкалирования полученный ими результат теста на идентификацию. В качестве исходных данных использовалась матрица неточностей (таблица 1.2), где N - нейтральная речь, A - гнев, H - радость, F - страх, S - печаль. Результат представляет собой пространственное распределение 4 эмоций и нейтральной речи в трёхмерном пространстве (рисунок 1.3).

Таблица 1.2. Матрица неточностей

Эмоции

Ответы


N

A

H

F

S

N

94.67

1.795

0.273

0.4224

2.708

A

0.65

96.06

2.358

0.567

0.197

H

0.89

2.302

94.73

1.606.

0.312

F

1.211

2.646

1.023

93.33

1.545

S

2.537

0.282

0.179

0.829

96.04


Рисунок 1.3. Распределение эмоций и нейтральной речи в 3х мерном пространстве

 

Однофакторный дисперсионный анализ ANOVA

Дисперсионный анализ (от латинского Dispersio - рассеивание), статистический метод, позволяющий анализировать влияние различных факторов на исследуемую переменную. Метод был разработан биологом Фишером в 1925 году и применялся первоначально для оценки экспериментов в растениеводстве. В дальнейшем выяснилась общенаучная значимость дисперсионного анализа для экспериментов в психологии, педагогике, медицине и др.

Целью дисперсионного анализа является проверка значимости различия между средними с помощью сравнения дисперсий. Дисперсию измеряемого признака разлагают на независимые слагаемые, каждое из которых характеризует влияние того или иного фактора или их взаимодействия. Последующее сравнение таких слагаемых позволяет оценить значимость каждого изучаемого фактора, а также их комбинации. При истинности нулевой гипотезы (о равенстве средних в нескольких группах наблюдений, выбранных из генеральной совокупности), оценка дисперсии, связанной с внутригрупповой изменчивостью, должна быть близкой к оценке межгрупповой дисперсии.

Для оценки важности каждого из речевых параметров в распознавании эмоциональных фрагментов используется однофакторный дисперсионный анализ. Дисперсионный анализ был выполнен Джовичичем и др. [20] для паралингвистических и лингвистических акустических характеристик. В результате анализа были сделаны выводы о том, что фактором, оказывающий наибольшее влияние на эмоциональное состояние является величина основного тона. Также было установлено, что эмоции гнев и радость могут быть различимы между собой только на основании параметра производной от основного тона.

Корреляция эмоциональных категорий

Первый эксперимент, исследовавший зависимость между эмоциями путём корреляции эмоциональных категорий и различных характеристик речевого сигнала был выполнен Ульдаллом в 1960 [22].

В 1993 Тишером был опубликован литературный обзор по данной теме, в котором были сделаны несколько базовых выводов о связях эмоциональных категорий и речевых параметров. По мнению Тишера категория активность отражает высокий темп разговора, высокую интенсивность и уровень основного тона, широкий диапазон основного тона и высокую энергию в высокочастотном спектре. Категория оценки, была классифицирована как неокончательная, и требующая дальнейшего изучения.

Он отметил важность интенсивности для таких эмоций, как отчаяние, гнев, панический страх, восторг. Для них характерны наиболее большое значение основного тона и значения энергии.

По результатам всех исследований он сделал однозначный вывод о связи между категорией активности и большинством речевых параметров: Активность взаимозависит от значения основного тона, интенсивности и темпа речи. Дополнительные параметры, коррелирующие с категорией активности, это диапазон основного тона, «ревущий» тембр, высокочастотная энергия. О высокой активности также свидетельствуют короткие паузы.

Ограниченные данные о взаимосвязи категории мощности и речевых характеристик свидетельствуют о том, что категория мощности распознаётся с помощью тех же параметров, что и категория активности (высокий темп, высокое значение основного тона, более высокочастотная энергия, короткие и/или редкие паузы, широкий диапазон интенсивности). За исключением того, что иногда высокая мощность коррелирует с низким уровнем основного тона, и продолжительностью гласных.

Классификация эмоций с помощью нейронных сетей

Одна из успешных попыток автоматического распознавания психоэмоционального состояния приведена в статье Янга и др.[24]. В качестве входных параметров классификатора на нейронных сетях были использованы следующие характеристики: основной тон, форманты, темп, длительность, джиттер, шиммер, МFСС коэффициенты, LPC коэффициенты, и энергия Теагера. Был выбран следующий набор базовых эмоций: гнев, скука, счастье, печаль, удивление и нейтральное состояние. В качестве материала использовалась корейская речевая база данных, содержащая, в общей сложности, около 9060 фраз. В результате, процент правильного распознавания психоэмоциональных состояний составил 58.6% для классификатора и 60.4% в случае перцептивного теста. Матрица неточностей для классификатора и человека приведена ниже (таблица 1.3, 1.4).

Таблица 1.3.

Матрица неточностей для автоматического распознавания (в %).


Гнев

Скука

Счастье

Нейтральное состояние

Грусть

Удивление

Гнев

58.6

0.3

9.0

12.2

1.1

18.8

Скука

0.1

64.1

2.4

5.5

27.9

0.1

Счастье

11.8

2.2

54.0

16.7

5.5

9.7

Нейтральное состояние

8.5

3.1

13.4

64.0

8.6

23.8

грусть

0.3

35.6

5.8

12.5

45.2

0.7

Удивление

19.5

0.0

11.5

2.6

0.5

66.0


Таблица 1.4 Матрица неточностей для перцептивного теста (в %)


Гнев

Скука

Счастье

Нейтральное состояние

Грусть

Удивление

Гнев

68.7

1,9

4,1

15,6

0,7

20,2

Скука

1,2

56,9

1,9

5,3

42,2

0,4

Счастье

4,5

2,8

62,7

4,5

2,6

9,9

Нейтральное состояние

18,4

6,2

26,4

70,9

11,0

7,9

грусть

0,4

32,0

2,0

3,0

42,4

0,4

Удивление

6,8

0,2

2,9

0,8

0,1

61,2

 

Модель распознавания эмоций человеком

Анализ паралингвистических и лингвистических характеристик, их сравнение с результатами многомерного шкалирования, выполненный Джовичичем др.[20], показал наличие иерархии в процессах восприятия и распознавания эмоций. Была сформулирована модель распознавания, состоящая их трёх уровней. Первый (базовый) уровень основан на наблюдении за паралингвистическими (статическими) речевыми параметрами. Это, главным образом, характеристик трёх основных измерений: время, интенсивность и спектр.

В случае, когда эмоция не может быть выявлена на первом уровне, необходим второй уровень распознавания, в котором анализируются лингвистические (макро просодические) параметры. Человеческий механизм восприятия затрачивает значительные усилия для определения динамических характеристик. Факторы, полученные в ходе дисперсионного анализа, показывают, что на это требуется в 10 раз больше времени, по сравнению со статическими.

Предполагается, что существует третичный уровень распознавания, для которого важное значение имеют микро просодические характеристики. Предварительные исследования некоторых эмоций, относящихся к этому уровню, таких, как смущение, неопределённость и др. показали ключевую роль данных параметров для их распознавания. В качестве иллюстрации была приведена иерархическая модель распознавания эмоций (рисунок 1.4).

Экспериментальные результаты, основанные на дисперсионном анализе и методе многомерного шкалирования, позволяют сделать вывод об иерархичности процесса распознавания эмоций человеком. На первом этапе, восприятие базируется на статических характеристиках, результатом анализа которых является общее впечатление об эмоции. Если возникает путаница в эмоциях, механизм восприятия сосредотачивает внимание на макро просодических характеристиках, которые помогают с высокой точностью разделить эмоции, относящиеся к одной группе. В качестве третьего уровня распознавания была предложена модель, основанная на микро просодических характеристиках, в которой и формируется окончательное восприятие.

Рисунок 1.4. Модель распознавания эмоций

Выводы


1.   Психоэмоциональное состояние в наибольшей степени оказывает влияние на изменение паралингвистических параметров;

2.       Наиболее чётко это изменение прослеживается для основного тона и дисперсии основного тона речевого сигнала, а также для оператора ТЕО;

.        Зависимость лингвистических характеристик от психоэмоционального состояния трудно подается изучению в связи со сложностями в их измерении;

.        Проблема нахождения наиболее эффективного набора паралингвистических характеристик для определения психоэмоционального состояния остаётся не решённой.

Глава 2. Алгоритмы расчёта основных характеристик и методы


В главе рассматриваются основные алгоритмы расчёта паралингвистических характеристик, таких как основной тон, джиттер, шиммер и нелинейных характеристик на основе оператора ТЕО, приводится обзор методов объективного анализа характеристик речевого сигнала: однофакторного дисперсионного анализа ANOVA, метода многомерного шкалирования, корреляционного анализа, а также методики проведения перцептивного теста. Также содержатся основные сведения о нейронных сетях, их видах, и алгоритме обучения. Данные алгоритмы и методы были использованы для получения количественной оценки параметров речевого сигнала и классификации.

2.1 Алгоритмы расчёта основных характеристик речевого сигнала

 

.1.1 Расчёт фундаментальной частоты

Этот алгоритм основан на работе Боэрсма в 1993 [26], и является основным инструментом исследователей для определения частоты основного тона. Определение основного тона выполняется с помощью автокорреляционного анализа коротких сегментов речи. Усовершенствование этого алгоритма состоит в нормализации автокорреляционной функции сегментов речи окном автокорреляции.

Известно, что выбор оптимальной оценки основного тона, такой, как оценки расположения глобального максимума автокорреляционной функции, приводит к ошибкам в контуре основного тона (например, частая смена звонких и глухих сегментов, удвоение октав и т.д.). Для компенсации этих эффектов применяется пост обработка, например, медианная фильтрация. Данный подход [27], использует метод, основанный на определении серии кандидатов, соответствующих каждому участку анализа, выбор кандидата откладывается до тех пор, пока все участки не обработаны. Оптимальная же последовательность, затем, определяется с учётом того, что бы потери в контуре были минимальны.

Для каждого участка m, вычисляются с помощью локального максимума нормализированной автокорреляционной функции в диапазоне (f0min, f0max) не более Nmax кандидатов (для исключения периодичности, лежащей за пределами диапазона изменения основного тона). Каждому кандидату соответствует своя локальная «сила»

                                       (2.1)

где  нормализированная функция автокорреляции сегмента,  - величина k-ой задержки, в которой  достигает максимума. Значение является свободным параметром алгоритма, функция которого заключается в выборе высоких или низких фундаментальных частот для моделирования соотношений между воспринимаемым основным тоном и акустической голосовой периодичностью (фундаментальная частота). Параметр также помогает уменьшить число локальных, направленных вниз переходов, вызванных наличием шума в сигнале.

Помимо голосовых, на каждом участке также рассматриваются и «глухие» кандидаты. Их локальная сила рассчитывается как

.                                                       (2.2)

Значения и обозначают пороговые значения звука и тишины, и также являются свободными параметрами алгоритма: участок классифицируется как глухой, если на нём не существует пиков корреляции со значением, выше , или если локальный абсолютный пик (lap) ниже, чем процент глобального абсолютного пика (gap). Величины gap и lap определяются в начале алгоритма, и затем отдельно для каждого отсчёта.

Вышеописанная последовательность действий соответствует основе алгоритма определения основного тона - определению последовательности кандидатов F0. Дальнейшее улучшение алгоритма связано с интерполяцией вокруг каждого локального максимума для наиболее точной оценки его расположения (так как автокорреляционная функция вычисляется по оцифрованной дискретной речи, и является дискретной версией непрерывной корреляционной функции, то её максимумы могут не соответствовать точкам сигнала). Это достигается с помощью кубической сплайн интерполяции. Функция окна, задействованная в анализе, может иметь форму распределения Гаусса. Довольно хорошие результаты с использованием этого окна были получены Боэрсмом [26] при выделении основного тона зашумлённого сигнала.

                                                    (2.3)

Результатом действия алгоритма является последовательность M наборов пар интенсивности и частоты , соответствующие каждому кратковременному отсчёту анализа. Эта последовательность определяет сетку, которая суммирует все возможные пути, соответствующие каждому возможному парному переходу между кандидатами F0 в соседних отсчётах. Это представление позволяет нам связать следующие веса для каждого пути,  - номер между 1 и максимальным числом кандидатов , найденных для m-ого отсчёта:

                                             (2.4)

2.1.2 Алгоритм расчёта F0

Путь  это речевой сигнал с частотой отсчётов Fs. Пусть f0min и f0max соответствуют минимальному и максимальному значению контура F0. Предварительная обработка:

. Филтьруем исходный сигнал с помощью низкочастотного фильтра Баттерворда 10-го порядка с частотой среза 4 кГц. Пусть - отфильтрованный сигнал.

. Находим глобальный абсолютный пик

.                                                                               (2.5)

. Выбираем окно длиной L, для того, чтобы обеспечить три угловых периода

                                                                                        (2.6)

. Используя выражение (2.3), вычисляем функцию окна, добавляя половину длины окна от 0 до , и, дополняя результирующий сигнал нулями до его длины, составляющей целые числа степени двойки. Пусть- окончательная длина сигнала, дополненного нулями.

. Вычисляем нормализированную функцию автокорреляции

.                                                                     (2.7)

Анализ коротких участков: для каждого сегмента  участка длиной , разбитого на частей:

. Вычитаем из значения каждого сегмента среднее арифметическое для всех сегментов

.                                                                 (2.8)

. Находим локальный абсолютный пик

.                                                                                 (2.9)

. Дополняем последовательность  нулями до длины .

. Умножаем последовательность на окно

                                                                                 (2.10)

. Вычисляем, нормализированную функцию корреляции для сегмента:

                                                                        (2.11)

. Разделим функцию корреляции для сегмента на окно автокорреляции:

.                                                                                   (2.12)

Пусть  и  из уравнения (2.2) - значение силы «глухих» кандидатов для анализируемого участка .

. Выбирем не более  локальных максимумов в  в диапазоне задержек, определяемом интервалом .

. Используя кубические сплайны, интерполируем каждый пик, а также соседние точки, для определения точного нахождения каждого экстремума. Пусть  и  это расположение и значение интерполированного экстремума от до .

. - это голосовые кандидаты с силой, определяемой уравнением (2.1).

2.1.3 Джиттер и шиммер

Качественная характеристика речи может быть проанализирована с помощью джиттера и шиммера. Джиттер отражает изменения частоты основного тона, а шиммер - изменения амплитуды сигнала между двумя соседними фреймами [31]. Численно они выражаются, как

                                                               (2.14)

Согласно исследованиям Ji Li и др. [28] использование в качестве классификационных характеристик джиттер и шиммера способствует повышению процента правильно распознанных психоэмоциональных состояний.

Рисунок 2.1. Непостоянное (микроизменения) колебание голосовых связок характеризуется шиммером (изменения амплитуды) и джиттером (изменение частоты).

На рисунке 2.1 представлено схематичное изображение сигнала, иллюстрирующее нерегулярную амплитуду и постоянную частоту сигнала (шиммер) и постоянную амплитуду и не постоянную частоту (джиттер).

2.1.4 Расчёт нелинейных характеристик на основе оператора ТЕО

Большинство речевых параметров являются производными от линейной модели речеобразования, которая предполагает, что поток воздуха распространяется через речевой тракт как плоская волна. Этот пульсирующий поток и является источником речеобразования. В соответствии с теорией, предложенной Теагером [12], это предположение, может не выполняться, так как поток расщепляется, образуя сопутствующие вихри, распределённые в голосовом тракте. Теагер предположил, что реальный источник речеобразования - это нелинейные взаимодействия вихревого потока. Считается, что изменения в физиологии речевой системы, вызванные эмоциональными состояниями, вызывают вихревые взаимодействия потоков в речевом тракте. Таким образом, нелинейные речевые характеристики необходимы для классификации эмоциональной речи.

Основываясь на теории простой колебательной системы «струна-груз», Теагер предложил энергетический оператор для измерения энергии речи, которая описывается нелинейным процессом. Этот оператор  получил название ТЕО (Teager Energy Operator). Форма оператора была предложена Кайзером [29], и имеет вид

                                 (2.15)

где  - непрерывный речевой сигнал.

Для сигнала, дискретного во времени, Кайзер определил оператор ТЕО в виде

                                 (2.16)

где  - это дискретный речевой сигнал. Например, для непрерывного сигнала , оператор ТЕО является постоянным , а для дискретного эквивалентного сигнала , ТЕО определяется, как .

Оператор ТЕО обычно применяется к отфильтрованной полосовым фильтром речи, так как он отражает энергию нелинейного потока для одной резонирующей частоты. Хотя, на выходе фильтра сигнал всё ещё содержит более одной частотной компоненты, он может рассматриваться как амплитудно-модулированный (АМ) и частотно-модулированный (ЧМ) сигнал  На выходе оператора  может быть приведена к виду

                                     (2.17)

ТЕО используется для разложения АМ-ЧМ сигнала на их амплитудно модулированные и частотно-модулированные компоненты в пределах определённой полосы частот, с помощью выражения

                                    (2.18)

                               (2.19)

где - разностный сигнал во временной области;

- оператор ТЕО;

- частотно-модулированная компонента на участке n;

- амплитудно-модулированная компонента на участке n.

На основе этих заключений, Марагос и др. [30] предложил использовать нелинейную модель, которая представляет речевой сигнал в виде

                                      (2.20)

где

                              (2.21)

включает в себя амплитудно-модулированную и частотно модулированную компоненты, представляя резонанс в m-ой форманте с несущей частотой . В этом выражении - значение амплитуды, изменяющейся со временем, и - частотно-модулированный сигнал m-ой форманты.

2.3 Методы объективного анализа основных характеристик речевого сигнала

 

.3.1 Однофакторный дисперсионный анализ ANOVA

Однофакторный дисперсионный анализ используется в тех случаях, когда есть в распоряжении три или более независимые выборки, полученные из одной генеральной совокупности путем изменения какого-либо независимого фактора, для которого по каким-либо причинам нет количественных измерений [32, 33, 34].

Для этих выборок предполагают, что они имеют разные выборочные средние и одинаковые выборочные дисперсии. Поэтому необходимо ответить на вопрос, оказал ли этот фактор существенное влияние на разброс выборочных средних или разброс является следствием случайностей, вызванных небольшими объемами выборок. Другими словами, если выборки принадлежат одной и той же генеральной совокупности, то разброс данных между выборками (между группами) должен быть не больше, чем разброс данных внутри этих выборок (внутри групп).

Пусть -  элемент () - выборки ()

где - число выборок, - число данных в  - выборке. Тогда  - выборочное среднее k - выборки определяется по формуле

                                                                                  (2.22)

Общее среднее вычисляется по формуле

, где                                                          (2.23)

Основное тождество дисперсионного анализа имеет следующий вид

Q=Q1+Q2,                                                                                      (2.24)

где Q1 - сумма квадратов отклонений выборочных средних  от общего среднего  (сумма квадратов отклонений между группами); Q2 - сумма квадратов отклонений наблюдаемых значений  от выборочной средней  (сумма квадратов отклонений внутри групп); Q - общая сумма квадратов отклонений наблюдаемых значений от общего среднего .

Расчет этих сумм квадратов отклонений осуществляется по следующим формулам

,                                                        (2.24)

                                               (2,26)

                                        (2.27)

В качестве критерия необходимо воспользоваться критерием Фишера

.                                                                               (2.28)

Если расчетное значение критерия Фишера будет меньше, чем табличное значение - нет оснований считать, что независимый фактор оказывает влияние на разброс средних значений, в противном случае, независимый фактор оказывает существенное влияние на разброс средних значений (λ - уровень значимости, уровень риска, обычно составляет λ=0,05).

2.3.2 Метод многомерного шкалирования

В основе многомерного шкалирования лежит идея геометрического представления стимульного множества [39]. Предположим, что нам задано координатное пространство, каждая ось которого соответствует одному из искомых факторов. Каждый стимул представляется точкой в этом пространстве, величины проекций этих точек на оси соответствуют значениям или степеням факторов, характеризующих данный стимул. Чем больше величина проекций, тем большим значением фактора обладает стимул. Мера сходства между двумя стимулами обратна расстоянию между соответствующими им точками. Чем ближе стимулы друг к другу, тем выше мера сходства между ними (и ниже мера различия), далеким точкам соответствует низкая мера сходства. Чтобы точным образом измерить близости, необходимо ввести метрику в искомом координатном пространстве; выбор этой метрики оказывает большое влияние на результат решения. Обычно используется метрика Минковского [35]:

                                                                             (2.29)

Где - размерность пространства, - расстояние между точками, соответствующими му и му стимулам,- величины проекций й и й точек на ю ось. Наиболее распространёнными её случаями являются: евклидова метрика (p=2)

                                                                             (2.30)

и метрика «city-block» (p=1)

                                                                                 (2.31)

В некоторых случаях пользуются метрикой доминирования (р стремится к бесконечности):

                                                                                (2.32)

Использование равномерных метрик предполагает, что при оценке сходств (различий) субъект в одинаковой мере учитывает все факторы. Когда же имеется основание утверждать, что факторы неравноценны для индивида, и он учитывает их в разной степени, прибегают к взвешенной метрике, где каждому фактору приписывается определенный вес. Разные индивиды могут принимать во внимание разные факторы. Тогда каждый индивид характеризуется своим собственным набором весов . Взвешенная метрика Минковского имеет вид

                                                                        (2.33)

Такая модель называется «индивидуальным шкалированием» или «моделью взвешенных факторов». Геометрически она интерпретируется следующим образом. Пусть в координатном пространстве имеется конфигурация точек, отражающая восприятие некоторого «среднего индивида» в группе. Для того, чтобы получить пространство восприятия -го субъекта, необходимо растянуть «среднюю конфигурацию» в направлении тех осей, для которых , и сжать в направлении осей, для которых . Например, если в пространстве двух факторов для «среднего индивида» все стимулы лежат на окружности, то для индивида, характеризующегося весами , эти стимулы будут располагаться на эллипсе, вытянутом вдоль горизонтальной оси, а для индивида, характеризующегося весами  на эллипсе, вытянутом вдоль вертикальной оси.

Многомерное шкалирование предлагает геометрическое представление стимулов в виде точек координатного пространства минимально возможной размерности. Существует два типа моделей: дистанционные и векторные. В дистанционных моделях исходные различия должны быть приближены расстояниями, в большинстве случаев используют привычное евклидово расстояние

                                                                            (2.34)

В векторных моделях меры близости или связи - величины, обратные различиям, аппроксимируются скалярными произведениями векторов, соединяющих точки, соответствующие стимулам с началом координат

                                                                                     (2.35)

При построении конфигурации стимулов используется аппарат линейной или нелинейной оптимизации.

Известны три подхода к шкалированию: линейный, нелинейный и неметрический. Линейный подход, предложенный Торгерсоном [25], основан на ортогональном проектировании в подпространство, образованное направлениями, характеризующимися значительным разбросом точек. Такое решение дает  при ортогональном проектировании.

В нелинейном случае [35] пытаются найти отображение, которое бы минимально искажало исходные различия . Вводится критерий качества отображения, называемый «стрессом» и измеряющий степень расхождения между исходными различиями  и результирующими расстояниями . С помощью аппарата нелинейной оптимизации ищется конфигурация точек, которая давала бы минимальное значение «стрессу». Значения координат этих точек и являются решением задачи. В качестве «стресса» используются разные виды функционалов, в простейшем случае:

                                                                            (2.36)

Нелинейный подход, как правило, приводит к пространству меньшей размерности, чем линейный. В линейном случае допускаются искажения лишь в сторону уменьшения различий. В нелинейном - возможны искажения как в ту, так и в другую сторону. Предпосылки получения отображения в пространстве невысокой размерности можно создать, если допустить возможность некоторого увеличения больших расстояний и уменьшения маленьких.

Неметрический (или монотонный) подход в своей последней модификации [36] основан на следующем соображении. Поскольку исходная матрица различий не является точной матрицей расстояний в каком-либо метрическом пространстве, то не следует стремиться аппроксимировать непосредственно эти различия. Нужно подобрать такую последовательность чисел, которая была бы монотонна с исходными различиями, но была бы более близка к точным расстояниям. Эту последовательность чисел уже можно использовать в качестве эталонной. Однако не известен способ построения такой последовательности с учетом лишь первоначальных различий. Предлагается многоэтапная процедура, использующая начальную конфигурацию точек.

На первом этапе подбирается числовая последовательность , монотонная с исходными различиями и минимально отклоняющаяся от расстояний начальной конфигурации. Затем ищется новая конфигурация, расстояния которой в наилучшей мере аппроксимируют числовую последовательность . На втором этапе опять подбирают новую последовательность  и конфигурацию изменяют так, чтобы ее расстояния приближали эту последовательность, и т. д. Таким образом, в качестве критерия, измеряющего качество отображения, используется функционал вида

                                                                              (2.37)

Нормирующий множитель  вводится для того, чтобы на качество решения не влиял масштаб конфигурации.

Известен еще один подход к шкалированию [37], сохраняющий монотонность отображения и не опирающийся на какую-либо числовую последовательность. Он основан на минимизации критерия:

                                                                         (2.38)

если

в противном случае.

Передвижение точек конфигурации направлено на усиление монотонности отображения, т.е. удовлетворению требования , если .

Нелинейный и неметрический подходы имеют преимущество перед линейным. Не ограничиваясь ортогональным проектированием, они позволяют получить хорошее отображение в пространстве меньшего числа измерений. Если размерность пространства оценена правильно, то после вращения координатные оси могут быть интерпретированы как факторы, лежащие в основе субъективных различий между стимулами. Если же размерность недооценена, то решение допускает интерпретацию только в терминах кластеров.

Нелинейные и неметрические методы опираются, как правило, на дистанционную модель: различия между стимулами приближаются расстояниями между соответствующими им точками. Для поиска решения они используют градиентные процедуры минимизации функционала. В большинстве случаев расстояния между точками вычисляются по евклидовой метрике, которая не чувствительна к вращению осей и переносу начала координат. Качество решения не зависит от направления системы координат, по этой причине формально полученные оси не могут нести смысловую нагрузку - для содержательной интерпретации они должны быть ориентированы соответствующим образом.

В основу линейного метода Торгерсона [25] положена центрированная векторная модель: близости между стимулами должны быть аппроксимированы скалярными произведениями векторов, соединяющих точки-стимулы с центром тяжести структуры. Решение ищется путем факторизации матрицы исходных близостей (или связей); вычисляются ее собственные значения и собственные векторы. Такая процедура обусловливает жесткую ориентацию осей: первая ось характеризуется максимальным разбросом точек вдоль нее, вторая - ортогональна первой и определяется следующим по величине разбросом, третья - ортогональна плоскости первых двух и т. д.

В тех практических ситуациях, когда существует фактор, по которому стимулы различаются больше, чем по всем остальным, первая ось будет соответствовать этому фактору. В таком случае формально полученные оси будут иметь смысловое содержание. Если же с точки зрения вклада в различия между стимулами все факторы или несколько из них равноценны, то для интерпретируемости осей необходимо произвести их поворот.

2.3.3 Корреляционный анализ

При изучении корреляций стараются установить, существует ли какая-то связь между двумя показателями в одной выборке, либо между двумя различными выборками, и если эта связь существует, то сопровождается ли увеличение одного показателя возрастанием (положительная корреляция) или уменьшением (отрицательная корреляция) другого. Иными словами, корреляционный анализ помогает установить, можно ли предсказывать возможные значения одного показателя, зная величину другого.

С этой целью можно использовать два разных способа: параметрический метод расчета коэффициента Браве-Пирсона (), и вычисление коэффициента корреляции рангов Спирмена () [40], который применяется к порядковым данным, т.е. является непараметрическим.

Коэффициент корреляции - это величина, которая может варьировать в пределах от +1 до -1. В случае полной положительной корреляции этот коэффициент равен плюс 1, а при полной отрицательной - минус 1.

На графике (рисунок 2.2) тому соответствует прямая линия, проходящая через точки пересечения значений каждой пары данных.

(а)                                                   (б)

Рисунок 2.2. Полная положительная корреляция () (а) и полная отрицательная корреляция () (б)

В случае же если эти точки не выстраиваются по прямой линии, а образуют «облако», коэффициент корреляции по абсолютной величине становится меньше единицы и по мере округления этого облака приближается к нулю (рисунок 2.3)

(а)                      (б)                     (в)

Рисунок 2.3.  (а),  (б), (в)

В случае если коэффициент корреляции равен 0, обе переменные полностью независимы друг от друга.

Обычно корреляция считается сильной, если ее коэффициент выше 0,60; если же он превышает 0,90, то корреляция считается очень сильной. Однако для того, чтобы можно было делать выводы о связях между переменными, большое значение имеет объем выборки: чем выборка больше, тем достовернее величина полученного коэффициента корреляции.

Существуют таблицы с критическими значениями коэффициента корреляции Браве-Пирсона и Спирмена для разного числа степеней свободы (оно равно числу пар за вычетом 2, т. е. ). Лишь в том случае, если коэффициенты корреляции больше этих критических значений, они могут считаться достоверными.

Так, для того чтобы коэффициент корреляции 0,70 был достоверным, в анализ должно быть взято не меньше 8 пар данных () при вычислении  и 7 пар данных () при вычислении .

Коэффициент корреляции Браве-Пирсона () - это параметрический показатель, для вычисления которого сравнивают средние и стандартные отклонения результатов двух измерений. При этом используют формулу (2.18):

                                                                             (2.39)

где - сумма произведений данных из каждой пары; - число пар;  - средняя для данных переменной ; - средняя для данных переменной ; - стандартное отклонение для распределения ; - стандартное отклонение для распределения .

Коэффициент корреляции рангов Спирмена () - это непараметрический показатель, с помощью которого пытаются выявить связь между рангами соответственных величин в двух рядах измерений. При вычислении коэффициента Спирмена используют порядок следования данных, а не их количественные характеристики и интервалы между классами.

При использовании коэффициента корреляции рангов Спирмена проверяют только, будет ли ранжирование данных для какой-либо выборки таким же, как и в ряду других данных для этой выборки, попарно связанных с первыми. Если коэффициент близок к +1, то это означает, что оба ряда практически совпадают, а если этот коэффициент близок к -1, можно говорить о полной обратной зависимости. Коэффициент  вычисляется по формуле (2.19)

                                                                                 (2.40)

где - разность между рангами сопряжённых значений признаков (не зависимо от знака);  - число пар.

Обычно этот непараметрический тест используется в тех случаях, когда нужно сделать какие-то выводы не столько об интервалах между данными, сколько об их рангах, а также тогда, когда кривые распределения слишком асимметричны и не позволяют использовать такие параметрические критерии, как коэффициент  (в этих случаях бывает необходимо превратить количественные данные в порядковые).

2.4 Субъективные методы анализа

 

.4.1 Основные подходы к записи эмоционально окрашенной речи

Существует несколько основных подходов к записи искусственной эмоциональной речи. Прежде всего, они связаны с разделением искусственной эмоциональной речи на наведённую и наигранную[41, 42].

В первом случае, используют методику Велтена [43] состоящую в том, что человек, читая предложения с определённым эмоциональным контекстом (положительные, отрицательные, нейтральные), произносит их с соответствующими эмоциями. Для этого испытуемого помещают в звукоизолированную комнату, перед ним находиться монитор, на котором через определённые интервалы времени появляются предложения, которые необходимо прочитать. Запись производиться с помощью микрофона, также, с помощью камеры, фиксируется выражения лица. Предложения содержат эмоциональный контекст, таким образом, испытуемый при прочтении предложения старается его отобразить. Данная методика является не слишком эффективной, так как необходимо также учитывать непосредственное состояние, в котором находится человек, а также его восприимчивость.

Наигранные эмоции записывают с использованием методики Станиславского. Она представляет собой научно обоснованную теорию сценического искусства, и была разработана русским режиссёром, актёром и театральным деятелем К.С. Станиславским [44]. В этой системе впервые решается проблема сознательного постижения творческого процесса создания роли, определяет пути перевоплощения актера в образ. Целью является достижение полной психологической достоверности актёрских работ. В основе лежит разделение актёрской игры на три технологии: ремесло, переживание и представление. По Станиславскому ремесло основано на пользовании готовых штампов, по которым зритель может однозначно понять, какие эмоции имеет в виду актёр. Искусство представления основано на том, что в процессе длительных репетиций актёр испытывает подлинные переживания, которые автоматически создают форму проявления этих переживаний, но на самом спектакле актёр эти чувства не испытывает, а только воспроизводит форму, готовый внешний рисунок роли. Наконец, в искусстве переживания актёр в процессе игры испытывает подлинные переживания, и это рождает жизнь образа на сцене.

2.4.2 База данных эмоциональной речи EMO-DB

Запись немецкой базы данных EMO-DB [1] проводилась с помощью методики Станиславского. При этом, учитывая, что наигранная эмоциональная речь не в полной мере является заменой естественной, были приняты во внимание следующие ограничения:

·   Необходимо использовать достаточное число дикторов, для того, чтобы была возможность выбора материала из полученных данных.

·   Все дикторы должны произносить одинаковые фразы.

·        Записи должны быть высокого качества с минимальным фоновым шумом. Иначе спектральные измерения будут невозможны.

·        Наличие инверсной фильтрации, безэховой камеры и ларингографа обязательно.

В данной базе использовались следующие эмоции: нейтральная, гнев, страх, радость, грусть.

С помощью газетной рекламы были отобраны 40 человек, которые были приглашены на предварительный отбор. Они должны были произнести по одной фразе в каждом из различных эмоциональных состояний. Руководствуясь этими записями, эксперты отобрали 10 человек (5 мужчин, 5 женщин). Все, кроме одного человека, оказались профессиональными актёрами.

Важно отметить, что все предложения, используемые в базе данных, несмотря на свою эмоциональность, не содержат эмоционального контекста. Изначально, было использовано два типа текстового материала, отвечающего всем вышеперечисленным требованиям:

1)      бессмысленный текст, такой, как, например, случайные серии фигур или букв, или придуманных слов.

2)      Обычные предложения, использующиеся в повседневной жизни.

Бессмысленный текст по определению эмоционально нейтрален. Однако минусом является то, что для актёров оказалось слишком сложным представить эмоциональную ситуацию, в которой можно произнести эти фразы. Поэтому воспроизведение бессмысленного текста не привело к каким-либо положительным результатам.

По сравнению с этим, предложения, использующиеся в повседневной жизни гораздо более просты в эмоциональной интерпретации. Более того, их проще запоминать. При создании базы данных приоритет отдавался естественности эмоций, именно поэтому используется материал, состоящий из обыденных фраз. 10 предложений, 5 из которых состоят из одной фразы, и 5 из двух фраз, были придуманы таким образом, чтобы было возможно произнести их с соответствующим эмоциональным подтекстом. Для базы данных были использованы следующие предложения (таблица 2.1).

Запись проводились в звукоизолированной комнате Берлинского Технического Университета, Департамент Технической Акустики, с использованием микрофона Sennheiser MKN 40 P 48 и цифрового магнитофона Тascam DA-P1. Также были записаны электро-глоттограммы с использованием ларингографа (Laryngograph Ltd.) При этом частота дискретизации составляла сначала 48 кГц, затем была понижена до 16 кГц.

Таблица 2.1. Предложения, использованные в базе данных EMO-DB

Код

Текст на немецком

Русский перевод

a01

Der Lappen liegt auf dem Eisschrank.

Скатерть лежит на холодильнике.

a02

Das will sie am Mittwoch abgeben.

Она передаст это в понедельник.

a04

Heute abend kцnnte ich es ihm sagen.

Вечером я скажу ему.

a05

Das schwarze Stьck Papier befindet sich da oben neben dem Holzstьck.

Лист металла находится там же, рядом с дровами.

a07

In sieben Stunden wird es soweit sein.

Это случиться через семь часов.

b01

Was sind denn das fьr Tьten, die da unter dem Tisch stehen?

Что насчёт сумок, стоящих под столом?

b02

Sie haben es gerade hochgetragen und jetzt gehen sie wieder runter.

Они только что занесли это наверх, и теперь опять спускаются.

b03

An den Wochenenden bin ich jetzt immer nach Hause gefahren und habe Agnes besucht.

Последнее время в выходные по дороге домой я всегда видел Агнессу.

b09

Ich will das eben wegbringen und dann mit Karl was trinken gehen.

Я только доиграю, а потом пойду выпью с Карлом.

b10

Die wird auf dem Platz sein, wo wir sie immer hinlegen.

Оно будет в том же месте, что и обычно.


Актёры стояли напротив микрофона на некотором расстоянии от него, так, чтобы им хватало пространства для необходимых телодвижений, движения ограничивались только длиной кабеля ларингографа, и необходимостью говорит в направлении микрофона на расстоянии около 30 см.

Во время записи рядом с актёром присутствовали три фонетиста, два из которых давали необходимые инструкции, и один следил за оборудованием. Каждая из сессий длилась около двух часов. Текст, при необходимости, подсказывался актёру, для того, что бы избежать интонаций, связанных с прямым чтением. Перед записью им предлагалось сначала прослушать характеристику предстоящего эмоционального состояния (например, радость от выигрыша большого количества денег в лотерее, или печаль от утраты близкого друга или родственника), и затем давалось некоторое время для перевоплощения. Актёров просили вспомнить какое либо состояние из прошлого, в котором они испытывали подобные чувства.

Процесс произнесения фразы по времени был не ограничен. Для некоторых из комбинаций были записаны несколько вариантов. Актёры были предупреждены о том, что необходимо избегать прямого крика (например, при интерпретации гнева) и шёпота. Это необходимо для того, чтобы полученные данные были достаточного для анализа качества. Также было уделено внимание тому факту, что произношение должно быть повседневным.

При записи возникли некоторые проблемы: во-первых, расстояние между источником звука и микрофоном не остаётся постоянным, а изменяется в зависимости от движений диктора, таким образом, анализ энергии сигнала может быть не надёжным. Во-вторых, нужно было регулировать уровень записи в соответствие с громкостью речи.

2.4.3 Перцептивный тест и методика его проведения

Просодическое, невербальное выражение эмоций часто определяется как неконвенциональное и сходное у представителей разных культур [45, 46]. Была предпринята попытка выявить возможности испытуемых (носителей русского языка) определять эмоции в голосовом сообщении при прослушивании аудиозаписей с эмоциональной немецкой речью (гнев, радость, страх, грусть, нейтральное состояние). Цель эксперимента - определить личностные особенности испытуемых, такие как: самочувствие, активность, настроение, особенности параметров эмоционального интеллекта (эмоциональной осведомленности, эмпатии, умения распознавать эмоции других людей, самомотивации, управления своими эмоциями), макиавеллизм личности и акцентирование на тех из них, которые способствуют и помогают при распознавании эмоций по голосу.

В качестве испытуемых были выбраны 20 человек, с неполным высшим образованием, средний возраст которых составил 21.5 лет. Методику проведения эксперимента можно разбить на три этапа.

На первом этапе участники эксперимента приглашаются в аудиторию, где им предлагают ответить на вопросы психологических тестов для определения личностных особенностей. После этого, экспериментатор объясняет испытуемым инструкцию к предстоящему эксперименту и раздает необходимые бланки. Далее начинается сам эксперимент.

В течение второго этапа участники прослушивают аудиозаписи на немецком языке. Эмоционально окрашенные предложения следуют одно за другим, в произвольном порядке, а испытуемые делают пометки в бланке после каждого прослушанного предложения, пытаясь определить эмоции в речи актеров.

На третьем этапе производиться подсчёт полученных результатов. По результатам перцептивного теста составляется матрица распознавания эмоций, являющаяся исходным материалом для метода многомерного шкалирования.

2.5 Классификация на основе нейронных сетей

 

.5.1 Основные сведения о нейронных сетях

Искусственная нейронная сеть - это математическая модель, а также устройства параллельных вычислений, представляющие собой систему соединённых и взаимодействующих между собой простых процессоров (искусственных нейронов) [47]. В последние несколько лет наблюдается взрыв интереса к нейронным сетям, которые успешно применяются в самых различных областях - бизнесе, медицине, технике, геологии, физике. Нейронные сети вошли в практику везде, где нужно решать задачи прогнозирования, классификации или управления.

Биологические нейронные сети

Нейронные сети возникли из исследований в области искусственного интеллекта, а именно, из попыток воспроизвести способность биологических нервных систем обучаться и исправлять ошибки, моделируя низкоуровневую структуру мозга. Основной областью исследований по искусственному интеллекту в 60-е - 80-е годы были экспертные системы. Такие системы основывались на высокоуровневом моделировании процесса мышления (в частности, на представлении, что процесс нашего мышления построен на манипуляциях с символами). Скоро стало ясно, что подобные системы, хотя и могут принести пользу в некоторых областях, не ухватывают некоторые ключевые аспекты человеческого интеллекта. Согласно одной из точек зрения, причина этого состоит в том, что они не в состоянии воспроизвести структуру мозга. Чтобы создать искусственный интеллект, необходимо построить систему с похожей архитектурой.

Мозг состоит из очень большого числа (около 10 000 000 000) нейронов, соединенных многочисленными связями (в среднем несколько тысяч связей на один нейрон, однако это число может сильно колебаться). Взаимодействующие между собой посредством передачи нервных импульсов нейроны образуют биологические нейронные сети (БНС). Нейроны - это специальные клетки, способные распространять электрохимические сигналы. Нейрон имеет разветвленную структуру ввода информации (дендриты), ядро и разветвляющийся выход (аксон). Аксоны клетки соединяются с дендритами других клеток с помощью синапсов. При активации нейрон посылает электрохимический сигнал по своему аксону. Через синапсы этот сигнал достигает других нейронов, которые могут в свою очередь активироваться. Нейрон активируется тогда, когда суммарный уровень сигналов, пришедших в его ядро из дендритов, превысит определенный уровень (порог активации).

Таким образом, будучи построен из очень большого числа совсем простых элементов (каждый из которых берет взвешенную сумму входных сигналов и в случае, если суммарный вход превышает определенный уровень, передает дальше двоичный сигнал), мозг способен решать чрезвычайно сложные задачи. Отметим важнейшие свойства БНС.

1.       Обработка информации в БНС осуществляется в параллельном режиме. Каждый нейрон формирует свой выход только на основе своих входов и собственного внутреннего состояния под воздействием общих механизмов регуляции нервной системы.

2.       БНС обладают способностью к комплексной обработке информации. К этой группе свойств относятся ассоциативность (сеть может восстанавливать полный образ по его части), способность к классификации, обобщению, абстрагированию и множество других.

.        Функционирование БНС отличается высокой степенью самоорганизации. В процессе работы они самостоятельно, под воздействием внешней среды, обучаются решению разнообразных задач. Не существует, насколько известно, никаких принципиальных ограничений на сложность задач, решаемых БНС. Нервная система сама формирует алгоритмы своей деятельности, уточняя и усложняя их в течение жизни.

.        БНС являются аналоговыми системами. Информация поступает в сеть по большому количеству каналов и кодируется по пространственному принципу: вид информации определяется номером нервного волокна, по которому она передается. Амплитуда входного воздействия кодируется плотностью нервных импульсов, передаваемых по волокну.

.        БНС обладают чрезвычайно высокой надежностью: выход из строя даже 10% нейронов в нервной системе не прерывает ее работы. В последовательных ЭВМ, основанных на принципах фон Неймана, сбой одной ячейки памяти или одного узла в аппаратуре приводит к выходу системы из строя.

Искусственные нейронные сети

Искусственная нейронная сеть представляет собой структуру нейронов, соединенных между собой. Сеть характеризуется внутренними свойствами образующих ее нейронов, индивидуальной топологией (архитектурой), а также правилами обучения (тренировки).

Обобщенная модель отдельного нейрона представлена на рисунке 2.4. Нейрон выполняет функцию адаптивного сумматора с регулируемыми уровнями входных сигналов, который осуществляет дополнительную линейную или нелинейную обработку вычисленной суммы с целью получения результата.

Рисунок 2.4. Обобщённая модель нейрона

Входная функция нейрона  расположенного в  слое, реализует операцию суммирования взвешенных выходов нейронов, расположенных в предыдущем, слое:

                                                                           (2.41)

Здесь  - число нейронов в предыдущем слое; символы  использованы с целью установления различия между нейронами, принадлежащими разным слоям сети. Значение  в (2.41) определяет величину внешнего смещения, подаваемого на нейрон , что соответствует включению в модель нейрона дополнительной синаптической связи с фиксированным значением сигнала .

Результат суммирования служит аргументом функции активации. Значение функции активации соответствует отклику нейрона на произвольную комбинацию входных воздействий. Иными словами, посредством активации нейрона осуществляется трансформация множества входных воздействий в выходной сигнал с желаемыми характеристиками. Вместе с правилами корректировки весовых коэффициентов на входе нейрона (правилами обучения), отличительной особенностью многих нейронных структур является выбор функции активации.

2.5.2 Однонаправленные нейронно-сетевые архитектуры

Искусственная нейронная сеть представляет собой структуру нейронов, соединенных между собой. Сеть характеризуется внутренними свойствами образующих ее нейронов, индивидуальной топологией (архитектурой), а также правилами обучения (тренировки).

Однослойные искусственные нейронные сети

Хотя один нейрон и способен выполнять простейшие процедуры распознавания, но для серьезных нейронных вычислений необходимо соединять нейроны в сети. Простейшая сеть состоит из группы нейронов, образующих слой (рисунок 2.5). Отметим, что вершины-круги слева служат лишь для распределения входных сигналов. Они не выполняют каких-либо вычислений и, поэтому, не будут считаться слоем. Для большей наглядности обозначим их кругами, чтобы отличать их от вычисляющих нейронов, обозначенных квадратами. Каждый элемент из множества входов отдельным весом соединен с каждым искусственным нейроном. А каждый нейрон выдает взвешенную сумму входов в сеть. Могут существовать также соединения между выходами и входами элементов в слое.

Удобно считать веса элементами матрицы . Матрица имеет строк и столбцов, где - число входов, а - число нейронов. Например, - это вес, связывающий третий вход со вторым нейроном. Таким образом, вычисление выходного вектора , компонентами которого являются выходы OUT нейронов, сводится к матричному умножению, где и- векторы-строки

Рисунок 2.5 Однослойная нейронная сеть

Многослойные искусственные нейронные сети

Более крупные и сложные нейронные сети обладают, как правило, и большими вычислительными возможностями. Хотя созданы сети всех конфигураций, какие только можно себе представить, послойная организация нейронов копирует слоистые структуры определенных отделов мозга. Оказалось, что такие многослойные сети обладают большими возможностями, чем однослойные. Многослойные сети могут строиться из каскадов слоев. Выход одного слоя является входом для последующего слоя.

Подобная сеть показана на рисунке 2.6. Многослойные сети не могут привести к увеличению вычислительной мощности по сравнению с однослойной сетью, если активационная функция между слоями линейна. Вычисление выхода слоя заключается в умножении входного вектора на первую весовую матрицу с последующим умножением (если отсутствует нелинейная активационная функция) результирующего вектора на вторую весовую матрицу

                                                                                 (2.42)

Так как умножение матриц ассоциативно, то

                                                                            (2.43)

Рисунок 2.6 Многослойная нейронная сеть

Из выражения (2.43) видно, что двухслойная линейная сеть эквивалентна одному слою с весовой матрицей, равной произведению двух весовых матриц. Следовательно, любая многослойная линейная сеть может быть заменена эквивалентной однослойной сетью. Однако однослойные сети весьма ограниченны по своим вычислительным возможностям. Таким образом, для расширения возможностей сетей по сравнению с однослойной сетью необходима нелинейная активационная функция.

У сетей, рассмотренных до сих пор, не было обратных связей, т.е. соединений, идущих от выходов некоторого слоя к входам этого же слоя или предшествующих слоев. Этот специальный класс сетей, называемых сетями без обратных связей или сетями прямого распространения, представляет большой интерес и широко используется. Сети более общего вида, имеющие соединения от выходов к входам, называются сетями с обратными связями. У сетей без обратных связей нет памяти, их выход полностью определяется текущими входами и значениями весов. В некоторых конфигурациях сетей с обратными связями предыдущие значения выходов возвращаются на входы; выход, следовательно, определяется как текущим входом, так и предыдущими выходами. Поэтому сети с обратными связями могут обладать свойствами, сходными с кратковременной человеческой памятью, где сетевые выходы тоже частично зависят от предыдущих входов.

Архитектура перцептрона проектируется исходя из содержания задачи, размерности вектора данных, количества параметров, характеризующих процесс или закономерность, а также требуемой точности идентификации. Размерность вектора данных определяется, в свою очередь, частотой дискретизации входного сигнала, если регистрируются временные последовательности, либо количеством измерительных датчиков.

Внутренняя структура перцептрона (число слоев, количество нейронов в слое, выбор функции активации) является, в большинстве случаев, результатом многократного экспериментирования с сетью, при котором анализируется поведение сети в процессе обучения, скорость процесса обучения, точность обработки данных, не использованных в процессе обучения и т.д. Обстоятельной теории, которая бы позволила оптимизировать этот процесс, пока что не существует.

Сложность сети должна соответствовать размерности обучающего набора, т. е., добавление нового внутреннего слоя в архитектуру нейронной сети с целью достижения более точной аппроксимации, должно сопровождаться увеличением числа обучающих пар. Если обучающий набор останется прежним, в то время как сеть стала более сложной, способность сети к обобщению будет снижаться. И наоборот. Выбор слишком простой для предложенного набора данных структуры сети может сопровождаться утратой ее способности определять основные параметры отображения.

Традиционно нейронные сети используются для задач классификации. В этом случае выходные сигналы преднамеренно представляются в бинарной форме, а целью процедуры является определение принадлежности выходного вектора (образца) некоторому заранее известному множеству. Бинарный характер выходных сигналов реализуется в архитектуре нейронной сети в форме пороговой функции активации выходных нейронов, а именно

                                                                  (2.44)

Очевидно, что функция (2.44) не является удовлетворительной в реконструктивных приложениях, поскольку каждая из компонент выходного вектора является в большинстве случаев непрерывной функцией. Представление непрерывного выходного сигнала эффективно реализуется в нейронной сети с помощью так называемой «сигмоидной» (sigmoid) функции активации

                                                                            (2.45)

Вид функции (2.45) представлен на рисунке 2.7. Форма сигмоидной функции позволяет рассматривать нейрон как адаптивный усилитель суммарного сигнала, поступающего на его входы. Слабый сигнал при этом усиливается, а сигнал высокого уровня не снижает чувствительности нейрона. Кроме того, функция (2.45) является непрерывно дифференцируемой, а ее первая производная является простой функцией выхода:

                                                                             (2.46)

Рисунок 2.7 Сигмоидная функция активации и ее производная

Это обстоятельство оказывается чрезвычайно важным как для реализации алгоритма обратного распространения, так и для эффективной нейронно-сетевой обработки сложных отображений, нелинейных процессов и задач реконструкции.

2.5.3 Обучение нейронных сетей

Под процессом обучения понимается алгоритмическая корректировка весовых коэффициентов синаптических связей каждого участвующего в процессе обучения нейрона, направленная на достижение минимальной ошибки в определении параметров выходного вектора для каждого из входных «образцов».

На этапе обучения на вход сети последовательно подаются входные сигналы из заранее подготовленного для тренировки сети набора. Каждому из входных сигналов (данным) соответствуют заранее известные параметры выходного вектора, определение которых для произвольного набора данных, в том числе не использованных в процессе обучения, является целью задачи. Такими параметрами могут быть, например, логические утверждения принадлежности входного вектора тому или иному классу решений или его соответствия одному из тестовых образов, коэффициенты разложения входной функции относительно некоторого базиса и т. д.

В каждом такте обучения перцептрон оперирует одновременно с одной из  пap векторов из входного и соответствующего ему выходного пространств, составляющих множество элементов обучения  размерности . После предъявления на вход перцептрона (нейронной сети) всех имеющихся в распоряжении элементов  (эпоха обучения), оценивается значение суммарной выходной среднеквадратичной ошибки

                                                                       (2.47)

перцептрона с матрицей весовых коэффициентов  соответствующей -ой обучающей эпохе. В формуле (2.47) вектор  соответствует «истинному» вектору из обучающего набора, а вектор  представляет собой результат нейронно-сетевой обработки входного сигнала  в δ -ой эпохе.

Алгоритм обратного распространения

Рассмотрим наиболее распространенный алгоритм обучения нейронных сетей с прямой связью - алгоритм обратного распространения ошибки. Этот алгоритм был заново открыт и популяризирован в 1986 г. Румельхартом и МакКлеландом [47, 48]. Суть алгоритма состоит в минимизации суммарной квадратичной ошибки

                                                                       (2.48)

Основная идея обратного распространения заключается в том, чтобы вычислять чувствительность ошибки сети к изменениям весов. Для этого нужно вычислить частные производные от ошибки по весам. Пусть обучающее множество состоит из P образцов, и входы k-го образца обозначены через . Вычисление частных производных осуществляется по правилу цепи: вес входа i-го нейрона, идущего от j-го нейрона, пересчитывается по формуле

                                       (2.49)

где  - длина шага в направлении, обратном к градиенту.

Если рассмотреть отдельно k-й образец, то соответствующее изменение весов равно

                                                                               (2.50)

Множитель  вычисляется через аналогичные множители из последующего слоя, и ошибка, таким образом, передается в обратном направлении.

Для выходных элементов мы получаем

                                                (2.51)

Для скрытых элементов множитель  определяется так

                                                                      (2.52)

С учетом того, что

 и                                                                (2.53)

Получаем

                                                               (2.54)

где индекс h пробегает номера всех нейронов, на которые воздействует i-й нейрон.

Данный алгоритм используется в двух вариантах. В стохастическом варианте веса пересчитываются каждый раз после просчета очередного образца, а в «эпохальном», или off-line варианте, веса меняются после просчета всего обучающего множества.

Переобучение и обобщение

Одна из наиболее серьезных трудностей алгоритма обратного распространения заключается в том, что таким образом мы минимизируем не ту ошибку, которую на самом деле нужно минимизировать, - ошибку, которую можно ожидать от сети, когда ей будут подаваться совершенно новые наблюдения [49]. Иначе говоря, мы хотели бы, чтобы нейронная сеть обладала способностью обобщать результат на новые наблюдения. В действительности, сеть обучается минимизировать ошибку на обучающем множестве, и в отсутствие идеального и бесконечно большого обучающего множества это совсем не то же самое, что минимизировать "настоящую" ошибку на поверхности ошибок в заранее неизвестной модели явления.

Сильнее всего это различие проявляется в проблеме переобучения, или слишком близкой подгонки. Сети с большим числом весов моделируют более сложные функции и, следовательно, склонны к переобучению. Сеть же с небольшим числом весов может оказаться недостаточно гибкой для того, чтобы смоделировать имеющуюся зависимость. Почти всегда более сложная сеть дает меньшую ошибку, но это может свидетельствовать не о хорошем качестве модели, а о переобучении. Выход состоит в том, чтобы использовать механизм контрольной кросс-проверки. Резервируется часть обучающих наблюдений, использующаяся для независимого контроля результата.

В самом начале работы ошибка сети на обучающем и контрольном множестве будет одинаковой (если они существенно отличаются, то, вероятно, разбиение всех наблюдений на два множества было неоднородно). По мере того как сеть обучается, ошибка обучения, естественно, убывает, и, пока обучение уменьшает действительную функцию ошибок, ошибка на контрольном множестве также будет убывать. Если же контрольная ошибка перестала убывать или даже стала расти, значит, сеть начала слишком близко аппроксимировать данные и обучение следует остановить. Это явление чересчур точной аппроксимации в процессе обучения и называется переобучением. Если такое случилось, то обычно советуют уменьшить число скрытых элементов и/или слоев, ибо сеть является слишком мощной для данной задачи. Если же сеть, наоборот, была взята недостаточно богатой для того, чтобы моделировать имеющуюся зависимость, то переобучения, скорее всего, не произойдет и обе ошибки - обучения и проверки - не достигнут достаточного уровня малости.

При практической работе с нейронными сетями, как правило, приходится экспериментировать с большим числом различных сетей, порой обучая каждую из них несколько раз (чтобы не быть введенным в заблуждение локальными минимумами) и сравнивая полученные результаты. Главным показателем качества результата является здесь контрольная ошибка. Необходимость многократных экспериментов ведет к тому, что контрольное множество начинает играть ключевую роль в выборе модели, то есть становится частью процесса обучения. Тем самым ослабляется его роль как независимого критерия качества модели - при большом числе экспериментов есть риск выбрать "удачную" сеть, дающую хороший результат на контрольном множестве. Для того чтобы придать окончательной модели должную надежность, часто (по крайней мере, когда объем обучающих данных это позволяет) поступают так: резервируют еще одно, тестовое множество наблюдений. Итоговая модель тестируется на данных из этого множества, чтобы убедиться, что результаты, достигнутые на обучающем и контрольном множествах, реальны, а не являются артефактами процесса обучения. Разумеется, для того чтобы соответствовать своей роли, тестовое множество должно быть использовано только один раз: если его использовать повторно для корректировки процесса обучения, то оно фактически превратится в контрольное множество.

2.5.4 Реализация многослойного перцептрона в MatLab

Когда сеть имеет несколько слоев, то каждый слой имеет свою матрицу весов W, вектор смещения b и вектор выхода а.

Чтобы различать весовые матрицы, векторы выхода и т. д. для каждого из этих слоев, вводится номер слоя как верхний индекс для представляющей интерес переменной (рисунок 2.8).

эмоция речевой сигнал идентификация

Рисунок 2.8 Многослойная сеть

Сеть, показанная выше, имеет R входов,  нейронов в первом слое, нейронов во втором слое и т. д. На смещения для каждого нейрона подан постоянный входной сигнал 1. Выходы каждого промежуточного слоя служат входами для следующего слоя. Таким образом, слой 2 может быть рассмотрен как один слой сети с  входами,  нейронами  и x матрицей весов .

Работа сети состоит в вычислении выходов сети на основе известных входов с целью формирования желаемого отображения вход/выход. Конкретная задача определяет число входов и число выходов сети. Кроме числа нейронов в выходном слое сети, для проектировщика важно число нейронов в каждом слое. Большее количество нейронов в скрытых слоях обеспечивает более мощную сеть. Если должно быть реализовано линейное отображение, то следует использовать нейроны с линейными функциями активации. При этом надо помнить, что линейные нейронные сети не могут формировать нелинейные отображения. Использование нелинейных функций активации позволяет настроить нейронную сеть на реализацию нелинейных связей между входом и выходом.

Обучение многослойного перцептрона

Комбинация линейной функции нескольких переменных и скалярной сигмовидной функции приводит к характерному профилю "сигмовидного склона" [49], который выдает элемент первого промежуточного слоя. На рисунке 2.9 (a) соответствующая поверхность изображена в виде функции двух входных переменных. Элемент с большим числом входов выдает многомерный аналог такой поверхности. При изменении весов и порогов меняется и поверхность отклика; может меняться как ориентация всей поверхности, так и крутизна склона - большим значениям весов соответствует более крутой склон. Так, например, если увеличить все веса в два раза, то ориентация не изменится, а наклон будет более крутым. В многослойной сети подобные функции отклика комбинируются друг с другом с помощью последовательного взятия их линейных комбинаций и применения нелинейных функций активации. На рисунке 2.9 (б) изображена типичная поверхность отклика для сети с одним промежуточным слоем, состоящим из двух элементов, и одним выходным элементом, для классической задачи "исключающего или". Две разных сигмоидных поверхности объединены в одну поверхность, имеющую форму буквы "U".

Перед началом обучения сети весам и порогам случайным образом присваиваются небольшие по величине начальные значения. Тем самым, отклики отдельных элементов сети имеют малый наклон и ориентированы хаотично - фактически они не связаны друг с другом. По мере того, как происходит обучение, поверхности отклика элементов сети вращаются и сдвигаются в нужное положение, а значения весов увеличиваются, поскольку они должны моделировать отдельные участки целевой поверхности отклика.

Рисунок 2.9.Поверхность отклика для сети без скрытого слоя (а) и сети с одним промежуточным слоем из двух элементов (б)

В задачах классификации выходной элемент должен выдавать сильный сигнал в случае, если данное наблюдение принадлежит к интересующему нас классу, и слабый - в противоположном случае. Иначе говоря, этот элемент должен стремиться смоделировать функцию, равную единице в области пространства объектов, где располагаются объекты из нужного класса, и равную нулю вне этой области. Такая конструкция известна как дискриминантная функция в задачах распознавания. Идеальная дискриминантная функция должна иметь плоскую структуру: точки соответствующей поверхности будут располагаться либо на нулевом уровне, либо на уровне единицы.

Если сеть не содержит скрытых элементов, то на выходе она может моделировать только одинарный "сигмовидный склон": точки, находящиеся по одну его сторону, располагаются низко, по другую - высоко. При этом всегда будет существовать область между ними (на склоне), где высота принимает промежуточные значения, но по мере увеличения весов эта область будет сужаться.

Такой сигмовидный склон фактически работает как линейная дискриминантная функция. Точки, лежащие по одну сторону склона, классифицируются как принадлежащие нужному классу, а лежащие по другую сторону - как не принадлежащие. Следовательно, сеть без скрытых слоев может служить классификатором только в линейно-отделимых задачах: когда можно провести линию (или, в случае более высоких размерностей, гиперплоскость), разделяющую точки в пространстве признаков.

Сеть, содержащая один промежуточный слой, строит несколько сигмоидных склонов, - по одному для каждого скрытого элемента, - и затем выходной элемент комбинирует из них "возвышенность". Эта возвышенность получается выпуклой, т.е. не содержащей впадин. При этом в некоторых направлениях она может уходить на бесконечность. Подобная сеть может моделировать большинство реальных задач классификации.

Сеть с двумя промежуточными слоями строит комбинацию из нескольких таких возвышенностей. Их будет столько, сколько элементов во втором слое, и у каждой из них будет столько сторон, сколько элементов было в первом скрытом слое. Используя достаточное число таких возвышенностей, можно воспроизвести поверхность любой формы.

В задачах классификации очень важно понять, как следует интерпретировать те точки, которые попали на склон или лежат близко от него. Стандартный подход заключается в том, чтобы для пороговых значений установить некоторые доверительные пределы (принятия или отвержения), которые должны быть достигнуты, чтобы данный элемент считался "принявшим решение". Например, если установлены пороги принятия/отвержения 0,95/0.05, то при уровне выходного сигнала выше 0,95 элемент считается активным, при уровне ниже 0,05 - неактивным, а в промежутке - неопределенным. Имеется и более тонкий (и, вероятно, более полезный) способ интерпретировать уровни выходного сигнала: считать их вероятностями. В этом случае сеть выдает несколько большую информацию, чем просто "да/нет": она сообщает нам, насколько (в некотором формальном смысле) мы можем доверять ее решению. При этом, однако, вероятностная интерпретация обоснована только в том случае, если выполняются определенные предположения о распределении исходных данных. Здесь, как и ранее, может быть принято решение по классификации, но, кроме того, вероятностная интерпретация позволяет ввести концепцию "решения с минимальными затратами".

Выводы


1.       С использованием данных алгоритмов были численно получены значения основных речевых параметров (основного тона, джиттера, шиммера, нелинейных характеристик на основе оператора ТЕО), которые использовались в классификации психоэмоциональных состояний с помощью нейронных сетей;

2.       Рассмотренные методы объективного анализа позволили установить значимость каждого из параметров в процессе классификации, получить многомерное представление результатов перцептивного теста, а также определить степень корреляции между объективными и субъективными методами исследования;

.        Разработана методика проведения перцептивного теста;

.        Было решено использовать в качестве нейросетевого классификатора многослойный перцептрон.

Глава 3. Анализ экспериментальных данных

Прежде чем перейти к практической части исследования - работе с классификатором - необходимо статистически оценить значимость каждой из рассчитанных характеристик речевого сигнала для определения психоэмоционального состояния, а также выявить зависимость между объективными (многомерное шкалирование, однофакторный дисперсионный анализ) и субъективными методами исследования (перцептивный тест). Основываясь на данных дисперсионного анализа и экспериментах, может быть выявлен наиболее эффективный набор характеристик речевого сигнала, а также оптимальные параметры классификации.

3.1 Статистический анализ данных

 

.1.1 Анализ значимости характеристик на основе однофакторного дисперсионного анализа ANOVA

Дисперсионный анализ выполнялся в программе Statistica 6.0 Целью дисперсионного анализа является исследования значимости различия между средними. Таким образом, была определена значимость следующих характеристик в распознавании психоэмоциональных состояний:

·  Джиттер

·        Шиммер

·        Максимальное изменение ЧОТ между сегментами

·        Стандартное отклонение изменения ЧОТ между сегментами

·        Максимальное изменение ЧОТ внутри сегмента

·        Стандартное отклонение изменения ЧОТ внутри сегмента

·        Среднее, стандартное отклонение, минимальное, максимальное значение ТЕО в критической полосе 51 Гц

·        Среднее, стандартное отклонение, минимальное, максимальное значение ТЕО в критической полосе 150 Гц

·        Среднее, стандартное отклонение, минимальное, максимальное значение ТЕО в критической полосе 250 Гц

·        Среднее, стандартное отклонение, минимальное, максимальное значение ТЕО в критической полосе 350 Гц

·        Среднее, стандартное отклонение, минимальное и максимальное значение энергии сигнала.

Проверка значимости в дисперсионном анализе основана на сравнении компоненты дисперсии, обусловленной межгрупповым разбросом (называемой средним квадратом эффекта или MSэффект) и компоненты дисперсии, обусловленной внутригрупповым разбросом (называемой средним квадратом ошибки или MSошибка). Если верна нулевая гипотеза (равенство средних), то можно ожидать сравнительно небольшое различие выборочных средних из-за чисто случайной изменчивости. Поэтому, при нулевой гипотезе, внутригрупповая дисперсия будет практически совпадать с общей дисперсией, подсчитанной без учета групповой принадлежности. Полученные внутригрупповые дисперсии можно сравнить с помощью F-критерия, проверяющего, действительно ли отношение дисперсий значимо больше 1. При фиксированном объеме выборки n дисперсия есть функция суммы квадратов (отклонений), обозначаемая, для краткости, SS (от английского Sum of Squares).

Переменные, значения которых определяется с помощью измерений в ходе эксперимента (например, балл, набранный при тестировании), называются зависимыми переменными. Переменные, которыми можно управлять при проведении эксперимента (например, методы обучения или другие критерии, позволяющие разделить наблюдения на группы или классифицировать) называются факторами или независимыми переменными. Рассмотрим следующий результат (таблица 3.1):

Таблица 3.1. Результаты однофакторного дисперсионного анализа


SS

Degr.of

MS

F

P

Intercept

1676.501

1

1676.501

1610.251

0.000000

«Var1»

81.473

4

20.368

19.563

0.000000

Error

188.447

181

1.041




В данном случае зависимая исследуемая переменная - джиттер, а факторы, влияющие на её изменение - различные психоэмоциональные состояния. В рассмотренном выше примере F-критерий показывает, что различие между средними статистически значимо (значимо на уровне 0.000). Результат принято считать статистически значимым, если уровень значимости меньше 0.005 ().

Результаты дисперсионного анализа приведены в таблице 3.2, а также в Приложении 1. В таблице 3.2 используются следующие обозначения: A - гнев, N -нейтральное состояние, F - страх, Н - радость, S - грусть, ЧОТ - частота основного тона.

Таблица 3.2 Результаты дисперсионного анализа

Речевые параметры

Значимость


NA

NF

NH

NS

AF

AH

AS

FH

FS

HS

NAFSН

Джиттер

0.000

0.153

0.000

0.003

0.000

0.642

0.000

0.000

0.000

0.000

0.000

Шиммер

0.113

0.189

0.409

0.084

0.844

0.036

0.620

0.063

0.541

0.039

0.096

Максимальное изменение ЧОТ между сегментами

0.000

0.000

0.000

0.192

0.000

0.052

0.000

0.000

0.000

0.000

0.000

Стандартное отклонение ЧОТ между сегментами

0.000

0.000

0.000

0.047

0.000

0.019

0.000

0.000

0.000

0.000

Максимальное Изменение ЧОТ внутри сегмента

0.000

0.000

0.000

0.154

0.003

0.342

0.000

0.004

0.000

0.000

0.000

Стандартное Отклонение ЧОТ внутри Сегмента

0.000

0.000

0.000

0.010

0.001

0.582

0.000

0.005

0.000

0.000

0.000

Среднее значение ТЕО в полосе 51 Гц

0.000

0.273

0.072

0.548

0.000

0.000

0.000

0.074

0.596

0.047

0.000

Стандартное отклонение ТЕО в полосе 51 Гц

0.000

0.274

0.058

0.540

0.000

0.000

0.000

0.072

0.593

0.037

0.000

Минимальное значение ТЕО в полосе 51 Гц

0.000

0.204

0.002

0.454

0.00

0.000

0.00

0.061

0.000

0.005

0.000

Максимальное значение ТЕО в полосе 51 Гц

0.00

0.078

0.004

0.347

0.000

0.000

0.000

0.199

0.070

0.011

0.00

Среднее значение ТЕО в полосе 150 Гц

0.000

0.311

0.216

0.835

0.000

0.068

0.019

0.055

0.344

0.480

0.002

Стандартное отклонение ТЕО в полосе 150 Гц

0.000

0.296

0.182

0.901

0.000

0.083

0.017

0.366

0.366

0.388

0.001

Минимальное значение ТЕО в полосе 150 Гц

0.000

0.179

0.010

0.223

0.000

0.020

0.000

0.154

0.993

0.221

0.000

Максимальное значение ТЕО в полосе 150 Гц

0.000

0.273

0.010

0.856

0.000

0.000

0.000

0.401

0.435

0.053

0.000

Среднее значение ТЕО в полосе 250 Гц

0.000

0.365

0.456

0.009

0.000

0.006

0.889

0.096

0.000

0.028

0.000

Стандартное отклонение ТЕО в полосе 250 Гц

0.000

0.334

0.424

0.014

0.000

0.004

0.758

0.074

0.000

0.046

0.000

Минимальное значение ТЕО в полосе 250 Гц

0.010

0.699

0.355

0.834

0.032

0.176

0.024

0.576

0.589

0.326

0.012

Максимальное значение ТЕО в полосе 250 Гц

0.006

0.750

0.647

0.807

0.006

0.037

0.043

0.527

0.686

0.944

0.000

Среднее значение ТЕО в полосе 350 Гц

0.008

0.407

0.493

0.002

0.000

0.087

0.166

0.134

0.000

0.006

0.000

Стандартное отклонение ТЕО в полосе 350 Гц

0.005

0.393

0.445

0.003

0.000

0.074

0.308

0.106

0.000

0.012

0.000

Минимальное значение ТЕО в полосе 350 Гц

0.000

0.417

0.930

0.259

0.005

0.007

0.006

0.517

0.393

0.127

0.000

Максимальное значение ТЕО в полосе 350 Гц

0.005

0.931

0.907

0.438

0.007

0.023

0.013

0.971

0.394

0.370

0.000

Среднее значение энергии

0.000

0.776

0.000

0.773

0.000

0.000

0.000

0.000

0.626

0.011

0.000

Стандартное отклонение значения энергии

0.000

0.440

0.001

0.607

0.000

0.001

0.000

0.013

0.183

0.000

0.000

Минимальное значение энергии

0.382

-

-

-

0.401

0.476

0.485

-

-

-

0.650

Максимальное значение энергии

0.021

0.053

0.093

0.232

0.617

0.788

0.374

0.879

0.588

0.581

0.154


На основании данных дисперсионного анализа можно сделать вывод о том, что шиммер, минимальное и максимальное значение энергии практически не зависят от изменения психоэмоционального состояния.

Параметры, связанные с частотой основного тона (максимальное изменение ЧОТ между сегментами, стандартное отклонение ЧОТ между сегментами, максимальное изменение ЧОТ внутри сегмента, стандартное отклонение ЧОТ внутри сегмента) плохо разделяют между собой стенические эмоции (гнев - радость) и астенические эмоции (нейтральное состояние - грусть).

Нелинейные характеристики плохо разделяют астенические эмоции (нейтральное состояние - страх, нейтральное состояние - грусть), а также пары эмоций: страх - радость и страх - грусть, но с помощью них можно различить стенические эмоции (гнев - радость). Причём, в случае значение критической полосы в 250 и 350 Гц, пары эмоций: нейтральное состояние - радость и гнев - грусть, распознаются хуже, а состояния страх - грусть и радость - грусть достаточно хорошо различимы между собой.

Параметры, связанные с энергией (среднее значение энергии, стандартное отклонение значения энергии), плохо разделяют между собой пары астенических эмоций (нейтральное состояние - страх, нейтральное состояние - грусть, страх - грусть).

3.1.2 Результаты перцептивного теста

В результате проведения эксперимента по распознаванию эмоциональной речи испытуемыми, были получены следующие результаты (таблица 3.3, рисунок 3.1):

Таблица 3.3 Результаты перцептивного теста (в%)


нейтральное

гнев

радость

грусть

страх

нейтральное

84

1.57

0.26

14.2

0

гнев

7.85

82.3

7.14

1.19

1.42

радость

19.5

5.6

68

2.39

4.34

грусть

6.05

0.26

0

90.7

2.89

страх

11.7

3.8

3.4

3.46

77.5


Рисунок 3.1. Результаты перцептивного теста (в %)

Общий процент распознавания составил 80%. Наиболее высокий процент распознавания - у эмоции грусть (90.7%), нейтрального состояния (84%) и эмоции гнев (82.3%). Также было выявлено 4 записи, для которых 100% испытуемых дали неверную характеристику психоэмоционального состояния.

3.1.3 Многомерное представление результатов перцептивного теста

Многомерное шкалирование - это способ наиболее эффективного размещения объектов, приближенно сохраняющий наблюдаемые между ними расстояния. Многомерное шкалирование размещает объекты в пространстве заданной размерности и проверяет, насколько точно полученная конфигурация сохраняет расстояния между объектами, т.е. использует алгоритм минимизации некоторой функции, оценивающей качество получаемых вариантов отображения.

Входными данными для многомерного шкалирования являются результаты перцептивного теста (таблица 3.3). Анализ выполняется в программе Statistica 6.0. После 26 итераций, при значении фактора стресса Краскала - 0.000048 (стресс является оценкой меры качества отображения), получаем окончательную конфигурацию в 3х измерениях, она изображена на рисунке 3.2.

Рисунок 3.. Многомерное представление результатов перцептивного теста.

На входе алгоритма многомерного шкалирования используется матрица, элемент которой на пересечении ее i-й строки и j-го столбца, содержит сведения о попарном сходстве анализируемых объектов (объекта [i] и объекта [j]) (таблица 3.4).

Таблица 3.4. Матрица расстояний


N

A

H

S

F

N

0.000000

1.141479

0.981364

1.333485

1.041399

A

1.141479

0.000000

1.702686

1.904237

1.719852

H

0.981364

1.702686

0.000000

1.941318

1.844840

S

1.333485

1.904237

1.941318

0.000000

1.793310

F

1.041399

1.719852

1.844840

0.000000


На выходе алгоритма МНШ получаются числовые значения координат, которые приписываются каждому объекту в некоторой новой системе координат, причем размерность нового пространства признаков существенно меньше размерности исходного. Координаты, полученные в результате многомерного представления результатов перцептивного теста, представлены в таблице 3.5.

Таблица 3.5. Координаты векторов в трёх мерном пространстве


Dim 1

Dim 2

Dim 3

N

-0.105344

-0.005366

0.120924

A

-0.479155

0.347735

-0.898174

H

-0.747066

-0.678794

0.433593

S

1.072986

-0.525590

-0.224169

F

0.258579

0.862015

0.567826


При выборе трёхмерной размерности пространства, как видно из рисунка 3.2, происходит полное разделение всех психоэмоциональных состояний.

3.1.4 Корреляция данных многомерного шкалирования и численных значений параметров

Для того чтобы оценить зависимость (связь) между двумя переменными, обычно вычисляют коэффициент корреляции. Непараметрическими аналогами стандартного коэффициента корреляции Пирсона является статистика Спирмена. Для определения корреляции усреднённых численных значений речевых параметров (таблица 3.6) с измерениями Dim1, Dim2 и Dim3 3х мерного пространства (таблица 3.5), в программе Statisitica 6.0 был выполнен тест Спирмена.

Таблица 3.6. Усреднённые значение речевых параметров

Параметры

Психоэмоциональные состояния


нейтральное

гнев

страх

радость

грусть

Джиттер

3.302308

2.501167

3.062500

2.435000

4.480000

Шиммер

9.020513

9.746167

9.649722

8.608846

10.04160

Максимальное изменение ЧОТ между сегментами

33.79487

116.4833

62.16667

147.5769

27.40000

Стандартное отклонение ЧОТ между сегментами

12.62004

38.55512

21.20358

51.30687

8.944458

Максимальное изменение ЧОТ внутри сегмента

31.82051

98.08333

71.61111

109.6538

26.80000

Стандартное отклонение ЧОТ внутри сегмента

10.81696

33.31225

23.04552

35.62510

7.680725

Среднее значение ТЕО в полосе 51 Гц

7163.578

1689.660

9955.079

4686.988

8253.342

Стандартное отклонение ТЕО в полосе 51 Гц

6984.846

1760.393

9694.874

4536.313

8030.652

Минимальное значение ТЕО в полосе 51 Гц

-31450.7

-9822.35

-29747.8

-25026.9

-32026.3

Максимальное значение ТЕО в полосе 51 Гц

32056.31

20798.87

30881.94

29307.62

32327.24

Среднее значение ТЕО в полосе 150 Гц

5229.941

3133.935

6347.343

4075.858

4974.828

Стандартное отклонение ТЕО в полосе 150 Гц

5142.837

3181.437

6230.916

3994.697

5001.626

Минимальное значение ТЕО в полосе 150 Гц

-31554.9

-20971.8

-29912.3

-26874.6

-29898.5

Максимальное значение ТЕО в полосе 150 Гц

32137.31

28293.85

31619.14

31070.27

32083.84

Среднее значение ТЕО в полосе 250 Гц

7874.722

4581.202

9063.352

6877.890

4478.686

Стандартное отклонение ТЕО в полосе 250 Гц

7740.587

4584.079

8910.829

6753.854

4788.216

Минимальное значение ТЕО в полосе 250 Гц

-31741.2

-27674.0

-31297.1

-30405.7

-31961.0

Максимальное значение ТЕО в полосе 250 Гц

32328.26

30856.55

32390.00

32229.38

32255.96

Среднее значение ТЕО в полосе 350 Гц

8688.639

5952.079

9797.073

7737.568

4663.620

Стандартное отклонение ТЕО в полосе 350 Гц

8585.748

5924.065

9640.827

7610.104

5070.382

Минимальное значение ТЕО в полосе 350 Гц

-32487.6

-27139.4

-31968.0

-32473.7

-32643.7

Максимальное значение ТЕО в полосе 350 Гц

32492.67

31088.50

32478.00

32471.27

32607.88

Среднее значение энергии

64.14015

58.81725

64.33648

61.26391

63.89369

Стандартное отклонение значения энергии

12.09249

15.04641

12.50716

13.80995

11.82352

Минимальное значение энергии

1

0.993975

1

1

1

Максимальное значение энергии

81.17481

81.91339

81.75830

81.81138

81.58931


В таблице 3.7 представлены результаты корреляционного теста.

Как видно из полученных данных для измерения Dim1 не наблюдается существенных корреляций с какими-либо из речевых характеристик. Измерение Dim2 коррелирует с нелинейными характеристиками оператора ТЕО в полосе 250 Гц и частично коррелирует со значениями основного тона. Измерение Dim3 коррелирует с нелинейными характеристиками ТЕО в критической полосе 51 Гц и стандартным отклонением энергии сигнала, что означает, что данное измерение обусловлено в первую очередь энергией.

Таблица 3.7 Результаты корреляционного теста Спирмена

Измерения

Dim1

Dim2

Dim3

Характеристики




Джиттер

-0.1

0.5

0.8

Шиммер

-0.3

0.7

0.4

Максимальное изменение ЧОТ между сегментами

0.1

-0.5

-0.8

Стандартное отклонение ЧОТ между сегментами

0.1

-0.5

-0.8

Максимальное изменение ЧОТ внутри сегмента

0.1

-0.5

-0.8

Стандартное отклонение ЧОТ внутри сегмента

0.1

-0.5

-0.8

Среднее значение ТЕО в полосе 51 Гц

-0.3

-0.3

0.9

Стандартное отклонение ТЕО в полосе 51 Гц

-0.3

-0.3

0.9

Минимальное значение ТЕО в полосе 51 Гц

-0.2

-0.3

-0.9

Максимальное значение ТЕО в полосе 51 Гц

0.2

0.3

0.9

Среднее значение ТЕО в полосе 150 Гц

-0.4

-0.5

0.7

Стандартное отклонение ТЕО в полосе 50 Гц

-0.4

-0.5

0.7

Минимальное значение ТЕО в полосе 150 Гц

0.2

0.3

-0.6

Максимальное значение ТЕО в полосе 150 Гц

0.1

0.1

0.7

Среднее значение ТЕО в полосе 250 Гц

-0.5

-0.9

0.0

Стандартное отклонение ТЕО в полосе 250 Гц

-0.3

-0.8

0.4

Минимальное значение ТЕО в полосе 250 Гц

-0.2

-0.9

-0.3

Максимальное значение ТЕО в полосе 250 Гц

-0.4

-0.5

0.7

Среднее значение ТЕО в полосе 350 Гц

-0.5

-0.9

0.0

Стандартное отклонение ТЕО в полосе 350 Гц

-0.5

-0.9

0.0

Минимальное значение ТЕО в полосе 350 Гц

-0.6

-0.4

-0.7

Максимальное значение ТЕО в полосе 350 Гц

0.2

0.3

0.9

Среднее значение энергии

-0.4

-0.5

0.7

Стандартное отклонение значения энергии

-0.2

-0.3

-0.9

Минимальное значение энергии

0.3

-0.3

0.7

Максимальное значение энергии

-0.1

-0.1

-0.7

 

3.2 Классификатор психоэмоциональных состояний на основе нейронных сетей


Для распознавания психоэмоциональных состояний на основе фрагментов речи был разработан классификатор на MATLAB, реализующий метод наименьших квадратов, линейный нейрон, радиальный нейрон, радиальную базисную сеть, смесь гауссовых компонент, многослойный перцептрон, секторный нейрон и др. (рисунок 3.3). Возможность выбора того или иного метода осуществляется с помощью окна, расположенного в верхней правой части программы.

В левом нижнем окне отображаются входные и выходные вектора тестовой и обучающей выборки. Они автоматически устанавливаются в процессе загрузки .mat файла. В качестве входного вектора эмпирическим путём были выбраны следующие речевые параметры (смю пункт 3.2.1).

Численные значения параметров входного вектора были рассчитаны с помощью программы Форманта. Для обучения и тестирования классификатора использовалась часть базы EmoDB, содержащей эмоционально окрашенную речь на немецком языке. Были использованы 187 записей 5 дикторов, соответствующих следующим эмоциональным состояниям: нейтральное, гнев, счастье, грусть, страх (таблица 3.8). Из них 20% (33 записи) использовались в качестве тестового набора и 154 записи в качестве обучающего.

Для классификации психоэмоциональных состояний решено было использовать многослойный перцептрон, так как он является достаточно хорошим аппроксиматором функций, достаточно просто в программной реализации и имеет быстрый алгоритм обучения. Кроме того, введение нелинейности в состав сети путём применения нелинейных функций активации (сигмоидной функции), существенно повышает её мощность.

Рисунок 3.3 Главное окно классификатора на MALAB

Таблица 3.8 Количество записей в базе данных


Немец 3

Немец 10

Немец 11

Немец 12

Немец 15

Гнев

14

10

11

12

13

Страх

4

8

10

6

8

Счастье

7

4

8

2

6

Нейтральное

11

4

9

4

10

Грусть

7

3

7

4

4

Общее количество

43

29

45

41

 

.3 Выбор оптимальных параметров многослойного перцептрона


При выборе архитектуры сети обычно опробуется несколько конфигураций с различным количеством элементов. Учитывая объём обучающей выборки, выбор был сделан в пользу двухслойного перцептрона, с 27 нейронами в первом слое. В качестве функции активации для первого и второго слоя использовалась нелинейная сигмоидная функция, с коэффициентом 0.1.Скорость обучения для первого и второго слоёв также составила 0.1.

3.3.1 Количество нейронов второго слоя

Одной из самых больших проблем при использовании нейронных сетей является невозможность предварительного определения оптимального количества нейронов. Если нейронов будет слишком мало, то это равносильно потере каких-то нелинейных связей в модели, если нейронов будет много, то это может привести к "переобучению" сети, то есть она просто "выучит" данные, а не распознает их структуру. Для этого была проведена серия экспериментов, в которых варьировалось количество нейронов второго слоя. Полученные данные представлены в таблице 3.9.

В таблице - количество правильно распознанных данных в обучающей выборке, - количество правильно распознанных данных в тестовой выборке, определяется выражением (3.1)

                                                                                      (3.1)

Данные таблицы 3.9 графически иллюстрируются рисунком 3.4.

Таблица 3.9. Зависимость процента правильно распознанных эмоции от количества нейронов

Количество нейронов

 (%) (%) (%) (%) (%) (%) (%) (%)









Номер эксперимента

1

2

3




5

63

66

63

63

52

44

1.03

59

57

10

62

60

67

54

65

57

1.12

64

57

15

73

66

73

66

75

57

1.15

73

63

20

78

69

75

60

76

60

1.21

76.3

63

25

75

75

77

60

76

63

1.15

76

66

30

73

60

81

69

80

63

1.21

78

64

35

80

69

78

63

73

63

1.18

77

65

40

80

66

77

66

73

60

1.23

76.6

62

45

81

72

78

63

84

69

1.19

81

68

50

82

66

81

72

84

66

1.21

82,3

68

55

81

66

79

69

82

66

1.2

80.6

67

60

81

69

81

63

81

66

1.22

81

66

65

81

66

81

66

82

72

1.19

81

68

70

84

63

83

72

83

69

1.22

83.3

68

75

83

66

84

63

82

66

1.27

83

65

80

82

72

84

63

82

69

1.2

82

68

85

82

66

82

69

83

69

1.2

82

68

90

84

66

82

72

82

66

1.21

82.6

68


Рисунок 3.4. Зависимость количества нейронов второго слоя от процента распознавания обучающей  и тестовой  выборки

При небольшом количестве нейронов (5-40) происходит частичная потеря нелинейных связей в модели, и классификатор не может обучиться до конца. Использование же большого числа нейронов (свыше 50) нецелесообразно, так как существенно повышаются аппаратные затраты алгоритма. В результате наиболее оптимальным является использование 45 нейронов.

3.3.2 Минимизация входного вектора

Как показали результаты однофакторного дисперсионного анализа, не все речевые параметры являются в достаточной степени информативными. Для выявления наиболее значимых из них был проведён ряд экспериментов, в процессе которых на вход классификатора подавали разный набор параметров.

В случае использования полного вектора параметров процент распознавания классификатором обучающей выборки в среднем составил 81%, тестовой - 68% (усреднённый результат для трёх экспериментов). Для более наглядного представления о проценте распознавания каждого из психоэмоциональных состояний используется матрица неточностей (таблица 3.10 и 3.11). Для обучающей и тестовой выборки она выглядит следующим образом:

Таблица 3.10. Матрица неточностей обучающего вектора в процентах


Нейтральное

Гнев

Страх

Счастье

Грусть

Нейтральное

84.8

3

6

0

6

Гнев

0.6

96.5

0

2.7

0

Страх

20.9

7.4

64.1

3.7

3.7

Счастье

9.5

22.2

3.17

65

1.5

Грусть

22.7

0

1.5

4.5

71.2

Таблица 3.11 Матрица неточностей тестового вектора в процентах


Нейтральное

Гнев

Страх

Счастье

Грусть

Нейтральное

100

0

0

0

0

Гнев

0

80

0

20

0

Страх

14.8

11.1

44.4

29.6

0

Счастье

0

20

33.3

40

0

Грусть

11.1

0

0

0

88.8


В случае ста процентного распознавания матрица должна быть заполнена только по главной диагонали, остальные же значения должны быть равны нулю. Из таблицы 3.10 и 3.11 видно, что нейтральное состояния и гнев наиболее хорошо распознаётся классификатором, эмоции страха и грусти частично путаются с нейтральным состоянием, а эмоция счастье с гневом и страхом.

При исключении из входного вектора максимального изменения частоты основного тона между и внутри сегментов, матрица неточностей выглядит следующим образом (таблица 3.12 и 3.13)

Таблица 3.12 Матрица неточностей обучающего вектора в процентах


Нейтральное

Гнев

Страх

Счастье

Грусть

Нейтральное

79.7

7

7

0

6

Гнев

0

70

0

2.7

0

Страх

25.9

6.1

64.1

2.4

1.2

Счастье

7.9

17.4

7.9

65

1.6

Грусть

34.8

0

0

4.5

60.6


Таблица 3.13 Матрица неточностей тестового вектора в процентах


Нейтральное

Гнев

Страх

Счастье

Грусть

Нейтральное

100

0

0

0

0

Гнев

0

80

0

20

0

Страх

18.5

11.1

40.7

29.6

0

Счастье

13.3

20

26.6

40

0

Грусть

44.4

0

0

0

55.5


Процент распознавания обучающей выборки составляет 77.3%, тестовой - 64% (усреднённый результатов для трёх экспериментов). По сравнению с полным набором параметров, процент распознавания эмоций страха и грусти немного уменьшился.

В случае, когда из вектора входных параметров исключены среднее, стандартное отклонение, минимальное и максимальное значение ТЕО в критических полосах 51 Гц, 150 Гц, и 350 Гц, матрица неточностей имеет вид (таблица 3.14 и 3.15):

Таблица 3.14 Матрица неточностей обучающего вектора в процентах


Нейтральное

Гнев

Страх

Грусть

Нейтральное

83.6

6

8

0

2

Гнев

4.7

87.7

5.4

2

0

Страх

26

17.2

54.3

0

2.4

Счастье

5

51.6

0

48.3

0

Грусть

57.8

5.2

5.2

5.2

42.1


Таблица 3.15. Матрица неточностей тестового вектора в процентах


Нейтральное

Гнев

Страх

Счастье

Грусть

Нейтральное

100

0

0

0

0

Гнев

0

90

0

10

0

Страх

22.2

33.3

33.3

11.1

0

Счастье

0

40

13.3

46.6

0

Грусть

11.1

33.3

0

0

55.5


Процент распознавания обучающей выборки составляет 67%, тестовой выборки - 66% (результат усреднён для трёх экспериментов). В случае отсутствия в векторе значений, связанных с нелинейным оператором ТЕО, классификатор практически в 50% процентах случаев не может распознать такие психоэмоциональные состояния как счастье, страх и грусть.

В случае исключения из вектора входных параметров значений среднего, стандартного отклонения минимального и максимального энергии, процент распознавания обучающей выборки составляет 78.6%, тестовой - 64% (таблица 3.16 и 3.17).

Таблица 3.16 Матрица неточностей обучающего вектора в процентах


Нейтральное

Гнев

Страх

Счастье

Грусть

Нейтральное

78.7

3

6

0

12

Гнев

0.6

94.5

0.6

4

0

Страх

23.4

3.7

68

1.2

3.7

Счастье

6.3

15.8

12.6

65

0

Грусть

19.6

0

3

4.5

72.7


Таблица 3.17 Матрица неточностей тестового вектора в процентах


Нейтральное

Гнев

Страх

Счастье

Грусть

Нейтральное

94.4

0

0

0

5.6

Гнев

0

80

0

20

0

Страх

11.1

11.1

37

29.6

11.1

Счастье

0

20

33.3

46.6

0

Грусть

33.3

0

0

0

66.6


Из таблицы 3.16 видно, что исключение энергии из входного вектора параметров, практически не сказывается на эффективности классификатора.

При исключении из вектора входных параметров шиммера, процент распознавания обучающей выборки составил 78.6%, тестовой - 69% (усреднённый результат для трёх экспериментов), как видно из матрицы неточностей (таблица 3.18, 3.19) это практически не влияет на эффективность распознавания.

Таблица 3.18 Матрица неточностей обучающего вектора в процентах


Нейтральное

Гнев

Страх

Счастье

Грусть

Нейтральное

84.8

4

4

0

7

Гнев

0

98.6

0

1.3

0

Страх

21

4.9

69.1

0

4.9

Счастье

9.5

23.8

7.9

55.5

3.1

Грусть

25.7

0

4.5

4.5

65.1

Таблица 3.19 Матрица неточностей тестового вектора в процентах


Нейтральное

Гнев

Страх

Счастье

Грусть

Нейтральное

100

0

0

0

0

Гнев

0

80

0

20

0

Страх

7.4

11.1

59.2

18.5

3.7

Счастье

6.6

20

33.3

40

0

Грусть

44.4

0

0

0

55.5


Так как шиммер, значения энергии, максимальное и минимальное изменении частоты основного тона между и внутри сегментов, как видно из вышенаписанного, не сильно влияют на эффективность распознавания, был проведён эксперимент, в ходе которого эти параметры были исключены из входного вектора. В результате, процент распознавания для обучающей выборки составил 76.3, а тестовой - 64% (таблица 3.20 и 3.21).

Таблица 3.20 Матрица неточностей обучающего вектора в процентах


Нейтральное

Гнев

Страх

Счастье

Грусть

Нейтральное

79.75

5

4

0

11.1

Гнев

0.6

92.5

0

6.8

0

Страх

9.8

6.1

43.2

1.2

3.7

Счастье

9.5

19

4.7

65

1.58

Грусть

18

0

4.5

4.5

72.7


Таблица 3.21 Матрица неточностей тестового вектора в процентах


Нейтральное

Гнев

Страх

Счастье

Грусть

Нейтральное

83.3

0

0

0

16.6

Гнев

0

80

3.3

16.6

0

Страх

0

11.1

48.1

33.3

7.4

Счастье

13.3

20

26.6

40

0

Грусть

33.3

0

0

0

66.6


Таким образом, учитывая данные однофакторного дисперсионного анализа и результаты экспериментов по минимизации входного вектора, окончательно получим, что наиболее эффективные параметры, подающиеся на вход классификатора, включают в себя:

·    Джиттер

·        Стандартное отклонение изменения ЧОТ между сегментами

·        Стандартное отклонение изменения ЧОТ внутри сегмента

·        Среднее, стандартное отклонение, минимальное, максимальное значение ТЕО в критической полосе 51 Гц

·        Среднее, стандартное отклонение, минимальное, максимальное значение ТЕО в критической полосе 150 Гц

·        Среднее, стандартное отклонение, минимальное, максимальное значение ТЕО в критической полосе 250 Гц

·        Среднее, стандартное отклонение, минимальное, максимальное значение ТЕО в критической полосе 350 Гц

·        Стандартное значение энергии сигнала.

Наибольший процент распознавания психоэмоциональных состояний при подачи данного вектора на вход классификатора наблюдается при следующих параметрах многослойного перцептрона:

·  Количество нейронов во втором слое - 45;

·        Количество эпох обучения -1000;

·        Коэффициенты функции активации для первого и второго слоя - 0,1; 0.1;

· Скорость обучения первого и второго слоя - 0.1; 0,1.

Выводы


По результатам перцептивного теста, процент распознавания составил 80%. При этом наиболее хорошо были различимы эмоции грусти, нейтральное состояние и гнев. Матрица неточностей, составленная по результатам теста, приведена в таблице 3.3. В результате компьютерной классификации процент распознавания составил для обучающей выборки 76%, для тестовой - 63% Матрица неточностей приведены в таблицах 3.22 и 3.23.

Таблица 3.22. Результаты компьютерной классификации (обучающая выборка)


нейтральное

гнев

радость

грусть

страх

нейтральное

75.7

6.06

9.09

0

6.06

гнев

2

93.8

0

4.08

0

радость

29.6

3.7

62.9

0

3.7

грусть

9.5

19.04

4.76

61.9

4.76

страх

18.1

0

4.54

4.54

72.7


Таблица 3.23. Результаты компьютерной классификации (тестовая выборка)

нейтральноегневрадостьгрустьстрах






нейтральное

83.3

0

0

0

16.6

гнев

0

80

20

0

радость

0

11.1

44.4

33.3

11.1

грусть

0

20

40

40

0

страх

33.3

0

0

0

66.6


Таким образом, процент распознавания данных классификатором для нейтрального состояния, гнева и радости существенно не отличается от результатов перцептивного теста. Процент же распознавания эмоции грусть и эмоции страх в случае субъективной оценки выше. Отчасти это связано с тем, что некоторые психоэмоциональные состояния довольно сложно различить даже на слух, чаще всего между собой путают стенические эмоции (гнев, радость) и астенические (нейтральные, грусть). Эмоцию страх можно отнести к смешанной категории, что само по себе представляет сложность для классификации. К тому же страх имеет различные градации: от скрытого до понического.

На основании оценки этих результатов можно сделать следующие выводы:

1.   Процент распознавания классификатором нейтрального состояния, гнева и радости практически не отличается от результатов перцептивного теста.

2.       Наиболее хорошо распознаются программой нейтральное состояние и эмоции гнева, их процент распознавания составляет для обучающей выборки 75.7 % и 93.8%, для тестовой - 83.3% и 80%, в случае перцептивного теста наибольший процент распознавания наблюдается для эмоции грусть (90.7%).

.        Стенические эмоции (гнев, радость), точно также как и астенические (грусть, нейтральное состояние, страх) довольно сложно разделить.

.        Не столь высокий процент распознавания эмоций страха (обучающая выборка - 72.7%, тестовая - 66.6%), счастья (обучающая выборка - 62.9%, тестовая выборка - 44.4%), грусти (обучающая выборка - 61.9%, тестовая выборка - 40%) связан, повидимому, с небольшим количеством данных.

Глава 4. Cегментация рынка программы автоматической идентификации психоэмоционального состояния


Успех продвижения на рынке новых товаров во многом зависит от всестороннего исследования требований рынка. Исследуемая информация касается спроса на товары и услуги различных уровней, уже имеющихся и потенциально возможных конкурентов, а также требований, предъявляемых потребителями. Сбор подобной информации требует значительных затрат времени и средств. Это заставляет предприятия нацеливаться на отдельные части рынка, которые представляют собой сегменты групп потребителей с примерно общими требованиями.

Поиск таких однородных сегментов потребителей среди различных вариантов требований, предъявляемых к товару, называется сегментацией рынка, а данный найденный участок рынка - сегментом рынка.

При разумном делении рынка на сегменты все инструменты маркетинга внутри него могут быть оптимально скоординированы. Именно поэтому сегментация рынка считается очень важным аспектом деятельности предприятия.

4.1 Методы рыночной сегментации


Сегментация представляет собой базу для разработки маркетинговой программы (включая выбор вида товара, ценовой, рекламной политики, каналов сбыта), ориентированную на конкретные группы потребителей [50]. Процесс сегментации состоит из нескольких этапов (рисунок 4.1).

Рисунок 4.1 Процесс сегментации рынка

В качестве единицы наблюдения для построения сегментации, как правило, используется отдельный индивид, если товар рассматривается как предмет индивидуального пользования, семья, когда исследуется товар общесемейного пользования, фирма или какая-либо другая структура. Начинается поиск сегментов для определения различий в предпочтениях у потребителей одного и того же товара. Сегменты могут быть сформированы на основе предпочтений покупателями различных свойств товара. Контингент основных покупателей определяется на основе анализа демографических и социально-экономических характеристик, делается попытка связать интенсивность приобретения данного товара с определенными показателями.

Большое значение при сегментации рынка имеют социально-экономические факторы. Доходы сами по себе не обеспечивают возможности для достаточно тонкой сегментации. Однако вкупе с социальным положением, жилищными условиями, культурными факторами они играют определяющую роль. В формировании критериев сегментации определенное место занимает выбор характеристик и требований к товару. При этом учитываются данные, включающие:

·  потребительские предпочтения и намерения при выборе товаров по сравнению с аналогичными изделиями конкурирующих предприятий;

·        характеристику вероятного спроса на новые изделия (на стадии опытной партии);

·        предпочтения населения относительно тех или иных потребительских свойств изделий (цвет, технические характеристики, габариты, качество);

·        цена.

Следующий этап сегментации рынка - выбор метода сегментации и его применение. Такая работа осуществляется с применением специальных методов классификации по выбранным критериям (признакам). Данный этап, по существу, представляет собой выбор и реализацию алгоритма классификации. Существует множество методов классификации, порожденных различием целей и задач, стоящих перед исследователями. Наиболее распространенными методами сегментирования рынка являются метод группировок по одному или нескольким признакам и методы многомерного статистического анализа.

Суть метода группировок состоит в последовательной разбивке совокупности объектов на группы по наиболее значимым признакам. Какой-либо признак выделяется в качестве системообразующего (владелец товара, потребитель, намеревающийся приобрести новый товар), затем формируются подгруппы, в которых значимость этого критерия значительно выше, чем во всей совокупности потенциальных потребителей данного товара. Путем последовательных разбивок (на две части) выборка делится на ряд подгрупп.

Для целей сегментации рынка используются также методы многомерной классификации, когда классификация проводится по комплексу анализируемых признаков одновременно. Наиболее эффективными из них являются методы автоматической классификации, или кластерного анализа, таксономии. Схемы классификации базируются на следующих предположениях. В один класс (тип) объединяются люди, сходные между собой по ряду признаков. Степень сходства у людей, принадлежащих к одному классу, должна быть выше, чем степень сходства у людей, принадлежащих к разным классам. С помощью этих методов решается задача типизации с одновременным использованием демографических, социально-экономических, психологических показателей.

4.2 Методика расчёта сегментации рынка


При первичной сегментации всего рынка целесообразно выделить сегменты товаров потребительского рынка или производственного назначения [52, 53]. Такая классификация важна, поскольку подчеркивает различия в характеристиках продуктов и последствия для маркетолога.

Для дальнейшего деления рынка на сегменты можно воспользоваться различными критериями в зависимости от следующих факторов:

·  географического положения потребителей (регион, страна);

·        типа потребителя (величина предприятия, интенсивность потребления, отрасль, место в производственном процессе);

·        типа процесса, для которого приобретается продукция (административная деятельность, движение товара, производственный процесс);

·        покупательского спроса (клиент/потенциальный клиент, связь с поставщиком, частота и величина закупок);

На рынках сбыта товаров широкого потребления используют другие критерии. Классическими являются следующие показатели:

·  социально-экономические (образования, доходы);

·        демографические (возраст, пол, состав семьи);

·        географические.

Однако следует учитывать, что всех потребителей на рынке не так-то легко разделить по категориям. Поведение потребителя в последнее время становиться все более дифференцированным, возникают различные «стили жизни» внутри общества.

Для формирования сегментации рынка используются элементы таксономического анализа - построение диаграмм Чекановского. Исходным шагом, предопределяющим правильность конечных результатов, является оформление матрицы наблюдений. Эта матрица содержит наиболее полную характеристику изучаемого множества объектов и имеет вид:

                                                                    (4.1)

Где  - число объектов; - число признаков;  - значение признака  для объекта . Признаки, включенные в матрицу, могут быть неоднородны, поскольку описывают разные свойства объектов. Кроме того, различаются единицы их измерения. Поэтому надлежит выполнить предварительное преобразование, которое заключается в стандартизации признаков. Это преобразование производится в соответствии с формулой (2).

                                                                                   (4.2)

причём,

                                                                                    (4.3)

где

                                                                     (4.4)

стандартное отклонение признака ;  - стандартизованное значение признака  для объекта .

После стандартизации переменных переходят к процедуре - расчету матрицы расстояний с учетом всех элементов матрицы наблюдений. Чаще всего для этого расчета используется средняя абсолютная разность значений признаков

                                                      (4.5)

Матрицу расстояний можно записать в следующем виде

                                                                     (4.6)

Здесь символ  обозначает расстояние между элементами  и .

Дальнейшее преобразование вышеприведенной матрицы заключается в том, что исчисленные расстояния разбиваются на классы по заранее установленным интервалам. Затем каждому выделенному классу присваивают условный знак. Преобразованная таким образом таблица называется неупорядоченной диаграммой Чекановского (таблица 4.1).

Таблица 4.1 Неупорядоченная диаграмма Чекановского

Номера единиц

1

2

...


1

X

Y

Y

X

2

Y

Y

X

Y

...

...

...

...

...

w

Y

Y

Y

X

В приведенной неупорядоченной диаграмме очередность записи единиц целиком случайна. На это указывает явственный разброс символов, обозначающих разницу между изучаемыми единицами: наименьшее численное расстояние - X наибольшее расстояние, т.е. пары единиц, наиболее разнящиеся между собой, - Y. Для их линейного упорядочения следует произвести перегруппировку знаков C и Y. Перегруппировка должна выполняться таким образом, чтобы указанные знаки оказались как можно ближе к главной диагонали диаграммы. С этой целью строки и столбцы таблицы переставляются до тех пор, пока не получится упорядоченная диаграмма.

4.3 Методика расчёта ёмкости сегмента рынка


В общеэкономическом плане под рынком понимается место, где собираются для совершения акта купли-продажи как продавцы, так и покупатели, все субъекты купли-продажи определенных товаров [51]. В маркетинге обычно под рынком понимается совокупность всех потенциальных потребителей, испытывающих потребность и имеющих возможность ее удовлетворить в товарах определенной отрасли.

Промышленный рынок представляет собой совокупность взаимоотношений между деятелями рынка (производители, посредники, потребители, банки, государственные органы, индивидуалы - агенты, брокеры, и т.п., фирмы, предлагающие услуги, и т.д.), осуществляемые в границах определенной территории в определенный момент времени.

Среди параметров рынков обычно рассматриваются:

· ёмкость (максимальное количество товара, которое может потребить рынок);

·        объем спроса;

·        объем предложения;

·        цена;

·        объем запасов у производителя;

·        объём запасов у потребителя;

·        структура потребителей;

·        структура производителей;

·        каналы товародвижения, используемые на данном рынке.

Ёмкость рынка - важнейший параметр, который может быть определен разными методами:

) исходя из структурных характеристик;

) по индексу исследовательской панели;

) по интенсивности требований;

) на основе суммирования продаж.

1. Определение ёмкости рынка исходя из его структурных характеристик. В расчет принимаются: общий объем производства продукции ; величина экспорта продукции государственнымии негосударственными  торговыми организациями; государственный и негосударственный импорт ; данные об остатках продукции на начало и конец анализируемого периода на складах производственных и торговых организаций , ; изменение государственных запасов за тот же период , . Перечисленные данные позволяют установить суммарную ёмкость анализируемого рынка

              (4.7)

. Определение ёмкости рынка по индексу исследовательской панели. Для расчета ёмкости рынка с помощью панели продавцов необходимо знать: общее количество розничных магазинов, торгующих анализируемой продукцией ; количество розничных магазинов, входящих в панель ; период, за который собираются данные по панели , мес.; остатки продукции на складах каждого магазина, включенного в панель, на начало и конец исследуемого периода , ; объем продаж в рассматриваемый период . Расчет ведется по формуле

                                     (4.8)

. Определение среднегодовой ёмкости рынка на основе данных об интенсивности потребления товара

                                                                                (4.9)

где  - число потребителей продукции;  - кратность покупок, определяемая как средняя величина продаж товара одному потребителю;  средняя продолжительность полного цикла эксплуатации товара, годы.

Однозначно определить фактическое число потребителей непросто. Один и тот же товар на рынке могут приобретать физические лица, семьи, сервисные организации и т.д., и для каждого из потребителей кратность покупок различна.

В связи с тем, что потенциальный потребитель может быть реальным только при определенных обстоятельствах, предварительно выявляются критерии, позволяющие провести между ними границу.

К числу таких критериев относятся цена товара (сопоставление цены и бюджета потребителя), географическое размещение потребителей, необходимость поставки товара, возможность совместного использования товаров (для оценки потребления автопокрышек может быть использовано, например, количество автомобилей данного класса и/или пройденный километраж) и др.

Срок эксплуатации товара  - обязательная характеристика его маркировки. Для товаров с длительным периодом эксплуатации в качестве  используется срок полной амортизации изделий. В связи с тем, что реальный срок эксплуатации изделий часто превышает период полной их амортизации, его целесообразно корректировать на средний коэффициент изношенности парка изделий данного класса.

. Определение ёмкости рынка на основе суммирования первичных, повторных и дополнительных продаж. Всех потребителей товара можно разделить на тех, кто: впервые приобретает данную продукцию (они формируют рынок первичных продаж - ), повторно покупает товар на замену старого (повторные или вторичные продажи - ), приобретает второй, третий и последующие экземпляры товара дополнительно к уже имеющемуся (дополнительные продажи - ). Тогда общий объем реализации (емкость рынка) будет определяться так

                                                         (4.10)

Для каждой конкретной фирмы продажи распределены во времени: повторные и дополнительные продажи могут иметь место только в том случае, если были первичные. Однако на рынке в целом в каждый фиксированный момент присутствуют все три типа покупателей. Вот почему для оценки емкости рынка большое значение имеет измерение их активности.

4.4 Товарно-рыночные стратегии маркетинга


Различают три разновидности товарно-рыночной стратегии маркетинга: недифференцированный маркетинг, дифференцированный маркетинг и концентрированный маркетинг.

Дифференцированный маркетинг - выступление в нескольких сегментах рынка с разработкой отдельного предложения для каждого из них. Так, корпорация «Дженерал моторс» стремится выпускать автомобили «для любых кошельков, любых целей, любых лиц». Предлагая разнообразные товары, она надеется добиться роста сбыта и более глубокого проникновения на каждый из осваиваемых ею сегментов рынка. Она рассчитывает, что благодаря упрочению позиции в нескольких сегментах рынка ей удастся идентифицировать в сознании потребителя фирму с данной товарной категорией. Более того, она рассчитывает на рост повторных покупок, поскольку именно товар именно товар фирмы соответствует желаниям потребителей, а не наоборот. К практике дифференцированного маркетинга прибегает все большее число фирм. Для дифференцированного маркетинга характерно: ориентация на два или несколько сегментов через различные маркетинговые программы, приспособление к каждому сегменту, диапазона цен для каждой группы потребителей.

Недифференцированный маркетинг - обращение ко всему рынку сразу с одним и тем же предложением в противовес сосредоточению усилий на одном сегменте. В этом случае фирма концентрирует усилия не на том, чем отличаются друг от друга нужды клиентов, а на том, что в этих нуждах общего. Она разрабатывает товар и маркетинговую программу, которые покажутся привлекательными максимально большему числу покупателей. Она полагается на методы массового распределения и массовой рекламы. Она стремится придать товару образ превосходства в сознании людей. В качестве примера недифференцированного маркетинга можно привести действия фирмы «Херши», которая несколько лет назад предложила одну марку шоколада в расчете на всех. Фирма, прибегающая к недифференцированному маркетингу, обычно создает товар, рассчитанный на самые крупные сегменты рынка. Для недифференцированного маркетинга характерно: одна общая цена для всех потребителей, общая программа маркетинга для различных типов потребителей.

Концентрированный маркетинг - концентрация маркетинговых усилий на большой доле одного или нескольких субрынков в противовес сосредоточению их на небольшой доле большого рынка. Можно привести несколько примеров такого концентрированного маркетинга. Фирма «Фольксваген» сосредоточила свои усилия на рынке малолитражных автомобилей, фирма «Хьюлет Паккард» - на рынке дорогих калькуляторов. Благодаря концентрированному маркетингу фирма обеспечивает себе прочную рыночную позицию в обслуживаемых сегментах, поскольку она лучше других знает нужды этих сегментов и пользуется определенной репутацией. Более того, в результате специализации производства, распределения и мер по стимулированию сбыта фирма добивается экономии во многих сферах своей деятельности. Для концентрированного маркетинга характерно: ориентация на конкретную группу потребителей через специализированную программу маркетинга, приспособление цены и предназначение товара для одной группы потребителей.

4.5 Практическая часть


Резкое развитие компьютерных технологий за последнее десятилетие привело к тому, что практически ни одна область не обходиться без их применения. Также претерпел изменения и качественный состав передаваемой информации. В настоящее время появляется всё больше областей, в которых человек непосредственно контактирует с компьютером, что накладывает дополнительные требования на системы приёма, передачи и обработки информации. Исследования, по результатам которых будет разработано программное обеспечение, позволяющее распознавать психоэмоциональное состояние, обеспечат более полное использование информации, а также внесут вклад в развития интерфейса «человек-компьютер».

Выделяем потребителей программы:

. Производители высокотехнологичных устройств, робототехники, для которых важным этапом в производстве является создание интерфейса, реагирующего на проявление различных эмоций человека, и позволяющего, в зависимости от психоэмоционального состояния, выполнять различные команды и действия. Примером может служить разработка японских учёных, робот Ифбот [54]. По утверждению разработчика, Ифбот может анализировать голос собеседника, выделяя эмоциональную составляющую, и на основе полученной информации строить диалог на уровне пятилетнего ребенка. Игрушка способна распознать до сорока разных «эмоций», а также запомнить некоторые привычки собеседника.

. Игровая индустрия. В настоящее время ведётся активная разработка компьютерных игр, способных реагировать на эмоциональное состояние игрока.

. Научные и исследовательские центры. Системы по распознаванию эмоций могут использоваться в научно-исследовательской деятельности, например для психологических или маркетинговых исследований.

. Центры приёмов звонков и справочные службы. Основная задача центров приёма звонков - запись и анализ миллионов телефонных разговоров клиентов и сотрудников отделов работы с клиентами, для того, чтобы лучше усвоить и упорядочить информацию, поступающую от покупателей. Например, компания Федерал Экспересс использует технологию, чтобы отыскивать в записанных звонках слова, звучащие как, например, «вау», чтобы выяснить, насколько хорошее или плохое впечатление сложилось у клиентов.

Рассмотриваем параметры программы, которые влияют на функциональность и на способ использования программы:

1. Простота настроек и обслуживания. Определяет уровень теоретической подготовки оператора программы.

. Объем настроек. Показывает, сколько имеется параметров для настройки программы. Больший объем настроек позволяет более гибко настроить программу.

. Полнота алгоритмов и методов. Количество реализованных алгоритмов и их функциональная полнота.

. Совместимость с программными продуктами мировых компаний.

. Точность алгоритмов. Процент правильно определённых эмоциональных состояний.

Создаём матрицу наблюдений (таблица 4.2). Выставляем в матрице оценки параметрам, для каждого потребителя, по пятибалльной системе. Чем выше оценка, тем важнее данный параметр для области применения нашей программы:

Таблица 4.2. Матрица наблюдений

Потребители

Параметры


1

2

3

4

5

1

2

5

4

5

5

2

5

5

3

5

5

3

2

5

5

4

5

4

4

5

3

5

5


Данная таблица представляет собой матрицу X. По формулам (4.2), (4.3) и (4.4) получяем матрицу Z.

                                                                         (4.7)

                                                                 (4.8)

По формуле (4.5) рассчитаем матрицу расстояний

                                                                (4.9)

Разбиваем полученную матрицу на классы, где X - соответствует наименьшему численному расстоянию между изучаемыми задачами (0-1) и получаем неупорядоченную матрицу Чекановского (таблица 4.3).

Таблица 4.3. Неупорядоченная диаграмма Чекановского.


1

2

3

4

1

X

X

X

X

2

X

X


X

3

X


X


4

X

X


X


После упорядочивания диаграммы получаем (таблица 4.4):

Таблица 4.4. Упорядоченная диаграмма Чекановского.

1324





1

X

X

X

X

3

X

X



2

X


X

X

4

X


X

X


В результате выполненных вычислений выделились два сегмента, один из которых включает в себя производителей высокотехнологичных устройств и научно исследовательские центры, а второй - игровую индустрию и центры приёма звонков.

Производим оценку ёмкости сегмента рынка, представляющего справочные службы, службы приёма звонков и игровую индустрию. Для этого воспользуемся методом определения среднегодовой ёмкости рынка на основе данных об интенсивности потребления товара.

Всего, по данным РАТИСС (Российская Ассоциация Телефонных Информационно-Справочных Служб), в России насчитывается более 1227 крупных операторов диспетчерских центров более чем в 47 регионах России. Учитывая, что среднее время tэкс составляет два года, а кратность покупок составляет в среднем от 5 до 30, ориентировочная ёмкость рынка составит от 3067.5 до 6135 единиц программного обеспечения. По данным MavicaNet в Росси насчитывается около 98 крупных фирм производителей компьютерных игр, таким образом, суммарная ёмкость для всего сегмента составляет от 3165.5 до 6233.

Выводы


1.   В результате сегментации рынка пользователей программы автоматической идентификации психоэмоционального состояния было выделено два целевых сегмента: один из которых включает в себя производителей высокотехнологичных устройств и научно-исследовательские организации службы, другой - игровую индустрию, центры приёма звонков и справочные службы.

2.       Для этого сегмента характерны повышенные требования к совместимости программного обеспечения, объёму настроек, а также к точности алгоритма. Была рассчитана ориентировочная ёмкость одного из сегментов рынка, включающего службы приёма звонков и справочные службы.

.        По результатам произведённого анализа можно предложить использование стратегии концентрированного маркетинга, для которого характерна ориентация на конкретную группу потребителей через специализированную программу маркетинга, приспособление цены и предназначение товара для одной группы потребителей.

Глава 5. Анализ производственной и экологической безопасности на рабочем месте инженера-исследователя

В результате массовой компьютеризации за последние несколько лет компьютеры стали использоваться практически повсеместно. Увеличилось и число людей, которые проводят за компьютером большую часть своего рабочего времени, что отрицательно сказывается на их здоровье. Существует несколько причин, вызывающих нарушения в организме человека при работе с компьютером. Это: воздействие на организм радиации, электростатических и электромагнитных полей, постоянное напряжение зрительной системы, длительное изменение положения тела и т. д.

Данный раздел дипломного проекта посвящён исследованию излучений и способу защиты от них при работе с компьютером над выполнением исследования зависимости речевых параметров от психоэмоционального состояния. В разделе ПЭБ проанализированы опасности для организма человека, возникающие при эксплуатации компьютера и мероприятия по созданию здоровых и безопасных условий труда при работе на нем.

5.1 Методика анализа ПЭБ на рабочем месте инженера-исследователя


Рабочее место инженера-исследователя характеризуется следующим образом:

Предметы труда:

бумага для принтеров и копирующих устройств, лазерные компакт-диски, дискеты;

Средства труда:

Программное обеспечение, внешняя звуковая карта, стереонаушники, микрофон, а также вспомогательные устройства (принтер, копирующее оборудование);

Продукты труда:

распечатанные данные (не несут в себе никакой опасности);

Технологический процесс:

включение/выключение основных устройств (монитор, системный блок и др.), дополнительные операции (копирование, распечатка);

Производственная среда:

кабинеты с большим количеством электронной техники, шум от периферийных устройств, шум создаваемый людьми;

Природно-климатическая среда:

среда с избытком тепла (результат нагревания работающей техники, люди, солнечное излучение);

Флора и/или фауна:

зелёные растения, декоративные цветы;

Люди:

работники фирмы;

Факторы обитаемости.

Физические:

компьютерная техника малых или средних габаритов;

Химические:

характерный запах гари в начале использования новой техники;

Психофизиологические:

усталость и вялость при монотонной и однообразной работе, конфликты между людьми;

Количественные и качественные оценки факторов обитаемости, а также их допустимые значения с целью выявления ВОФ представлены в следующих разделах.

Можно предположить использование метода комбинированных мероприятий для обеспечения безопасности работающих от вредных и опасных факторов:

а) Максимально возможно адаптировать окружающую среду для комфортной работы человека. Упорядочить рабочее место, устранить раздражающие факторы (яркое оформление кабинета, слишком яркое или слишком тусклое освещение, сквозняки и др.), устойчиво и правильно установить аппаратуру во избежание столкновений и падения;

б) Применение современной и автоматизированной техники (дистанционное управление монитором, приводом CD-ROM, автоматическая подача бумаги для печати, резка на различные форматы и разбивка на копии);

в) В силу несовершенства некоторой техники, а также наличия некоторых других факторов приходится адаптироваться и привыкать к окружающей среде (шумовое воздействие на человека от периферийных устройств и т.д.

С точки зрения технической безопасности - компьютер относится к устройствам, создающим электромагнитное излучение. Поэтому способам защиты рабочего места от электромагнитного излучения следует уделить первостепенное внимание.

5.2 Основные вредные факторы и их нейтрализация для создания комфортных условий труда


К вредным производственным факторам, влияющим на работу инженера-исследователя, относятся [55, 56, 57]:

1)   микроклимат;

2)      электрическая опасность;

)        пожароопасность;

)        электромагнитное излучение;

)        нерациональное освещение;

)        шумы;

)        психофизиологические факторы.

Микроклимат

Хотя современные вычислительные машины и рассеивают в окружающую среду гораздо меньшее количество тепловой энергии, чем первые их модели, тем не менее, они все же остаются в числе нарушителей температурного баланса на рабочем месте. Температура воздуха на рабочем месте должна находиться в пределах от +18 до +25 °C, с оптимальной величиной 22 °С. Также, для нормальной работы за компьютером и его функционирования, относительная влажность воздуха для рабочего места должна быть 40-60%, с оптимальной величиной в 52 %, запыленность 1 мг/м3, скорость движения воздуха 0.3-0.7 м/с.

Такие условия могут поддерживаться только кондиционером. Кондиционирование воздуха создает и автоматически поддерживает внутри помещения независимо от наружных метеоусловий заданную температуру, относительную влажность и скорость движения воздуха. Кондиционеры автономные, общего назначения, обеспечивают автоматическое регулирование воздуха в помещениях от 18 до 28 °С, с точностью до одного градуса. Изготавливают кондиционеры с регулированием относительной влажности от 30 до 10%.

Одним из основных параметров по оптимизации микроклимата и состава воздуха в помещении является обеспечение надлежащего воздухообмена. Санитарными нормами установлено, что объем производственных помещений на одного работающего должен составлять не менее 15 м3, а площадь помещения не менее 4.5 м2.

Для обеспечения вентиляции, в машинном зале должен быть предусмотрен двойной пол - основной и технологический (фальшпол); на технологическом устанавливаются устройства ЭВМ. Пространство между основным и технологическим полом также используется в качестве приточного вентиляционного канала.

Электрическая опасность

Согласно действующим правилам устройства электроустановок, помещения для работы с ЭВМ относятся к категории помещений без повышенной опасности (сухие, с нормальной температурой воздуха, с токонепроводящими полами), однако опасность поражения электрическим током существует. При этом стандартное напряжение в 220В, хотя и представляет определенную опасность для жизни человека, является все-таки менее опасным, чем напряжения внутри монитора, которые достигают значений в десятки и сотни кВ.

Поражение электрическим током возможно в случае нарушения заземления компьютера, повреждения соединительных проводов, защитных корпусов. Кроме того, в результате короткого замыкания возможно возникновение пожара, который может привести к тяжелым последствиям, так как при горении электронной аппаратуры выделяются токсичные газы.

ГОСТ 12.2007-75 [58] устанавливает требования безопасности, предотвращающие или уменьшающие до допустимого уровня воздействие на человека электрического тока. Одной из обязательных мер электробезопасности при работе с компьютером является надежное заземление его (так как потребляемая ЭВМ мощность составляет 150-200 Вт, а напряжение сети - 220 В (±15 В), то ток заведомо больше порогового Iпор=0,5 мА, следовательно, сопротивление защитного заземления должно равняться Rз=4 Ом). Для заземления компьютера, в первую очередь, могут применяться естественные заземлители, любые металлические конструкции, имеющие хорошую связь с землей. Если сопротивление естественных заземлителей больше нормируемого, то необходимо сооружать искусственные заземлители. Ими могут быть стальные трубы, угловая сталь, металлические стержни и др.

Нерациональное освещение

Если рабочее место не освещается достаточно мощным световым потоком, то это ведет к преждевременному утомлению и уменьшения его работоспособности. Главным образом нерациональное освещение сказывается на зрении человека. Производственное освещение должно удовлетворять следующим требованиям:

·    освещенность на рабочем месте должна соответствовать санитарным нормам, для малой и средней контрастности поверхности ЭВМ при темном фоне наименьший уровень освещенности должен быть 150 лк, для большой контрастности при светлом или темном фоне наименьший уровень освещенности 100 лк;

·        равномерное распределение яркости может быть достигнуто, например, за счет использования нескольких источников света, либо применением ламп дневного освещения;

·        отсутствие резких теней в рабочей зоне, что достигается правильным выбором места в пространстве для источника освещения;

·        отсутствие в поле зрения прямой и отраженной блёстности, для чего следует избегать использования гладких, блестящих поверхностей в зоне видимости с рабочего места;

·        величина освещенности должна быть постоянной во времени - это означает отсутствие мигания источников освещения;

·        оптимальная направленность светового потока - рекомендуемый угол падения света на рабочую поверхность 60 º к ее нормали;

·        выбор спектрального состава, то есть естественное освещение плюс искусственный источник со спектральной характеристикой, близкой к солнечному свету.

С освещенностью тесно связано требование оптимального сочетания цветов потолка, стен и пола помещения и установленного в нем оборудования, которое должно основываться на учете как физических, так и психологических факторов. При выборе цвета нужно исходить из требования создания условий для хорошего распределения общего освещения, что улучшает условия зрительного восприятия. Светлые оттенки всех цветов уменьшают поглощение цвета. Наибольшие коэффициенты отражения требуются для потолков, несколько меньше - для стен и пола. Рекомендуется выбирать цвета бледных, пастельных тонов. При этом следует использовать совместимые группы цветов, тогда потолок сможет отразить 80-90% света, стены - 50-60%, а пол - 15-30%.

Примером совместимой окраски цветов служит следующая окраска помещения: потолок белого цвета, верхняя часть стен - бледно-зеленого цвета, остальная часть стен, а также пол и драпировка - зеленого цвета средней насыщенности, мебель - зеленовато-серого или светло коричневого.

Шум

Шум на рабочих местах в помещениях вычислительного комплекса создается внутренними источниками: техническими средствами, кондиционерами и другим оборудованием. Чем сильнее шум и продолжительность его воздействия на человека, тем ниже производительность труда и тем больше ошибок в работе обслуживающего персонала.

По данным НИИ строительной физики шум вреден для человека начиная с 65-70 дБ. Уровень шумов в машинных залах без шумоизоляции достигает 75-85 дБ. Снижение уровня производственных шумов в машинных залах достигается ослаблением шумов самих источников и специальными архитектурно-планировочными мероприятиями. Мероприятиями по погашению шумов являются следующие действия: облицовки стен, колонн и потолков звукопоглощающими перфорированными плитами с прокладкой из пористых поглотителей шума (уровень уменьшается на 6 дБ, что соответствует снижению силы звука на 30%), уменьшение площади стеклянных ограждений и оконных проемов, установка особо шумящих устройств на упругие прокладки, применение на рабочих местах звукогасящих экранов, отделение помещений с высоким уровнем шума от других помещений звукоизолирующими перегородками.

Сопровождающие шум механические вибрации не только вредно воздействуют на организм, но и мешают человеку выполнить как мыслительные, так и двигательные операции. Зрительное восприятие ухудшается под действием вибрации, особенно на частотах между 25 и 40 Гц и между 60 и 90 Гц. Человеческое тело реагирует на вибрацию в основном так же, как и механические системы. Когда частота внешних вибраций приближается к частоте собственных колебаний человеческого тела, равной примерно 5 Гц, действие вибраций на человека особенно опасно.

Психофизиологическая безопасность

Психофизиологические факторы в зависимости от характера действия делятся на следующие группы: физические перегрузки (статические, динамические) и нервно-психические перегрузки (умственное перенапряжение, зрительное утомление, монотонность труда, эмоциональные перегрузки).

Под утомлением понимается процесс понижения работоспособности, временный упадок сил, возникающий при выполнении определенной физической или умственной работы. Для уменьшения влияния этих факторов необходимо применять оптимальные режимы труда и отдыха в течение рабочего дня:

·    общее время работы за дисплеем не должно превышать 50% всего рабочего времени оператора ЭВМ;

·        при обычной работе за компьютером необходимо делать 15-минутные перерывы через каждые два часа, а при интенсивной работе - через каждый час;

·        не следует превышать темп работы порядка 10 тысяч нажатий клавиш в час);

·        обязательно ставить на дисплеи экранные, в частности, поляризационные, фильтры, в несколько раз снижающие утомляемость глаз;

Рабочая поза оказывает значительное влияние на эффективность работы человека. Основные требования к рабочим местам при выполнении работы сидя, приведены в ГОСТ 12.2.033-78 "ССБТ. Рабочее место при выполнении работ сидя. Общие эргономические требования".

5.3 Расчёт электромагнитного излучения и способы защиты


Главным источником опасных факторов от традиционных ПК считают ЭЛТ, излучения которой несут основную опасность. Она, в той или иной степени продуцирует электромагнитные волны в широком диапазоне частот: от НЧ до СВЧ, ионизирующие излучения (в том числе рентгеновское), инфракрасное, оптическое (видимого диапазона и ультрафиолетовое), электростатическое поле. Отмечается, что большая вероятность вреда организму обусловлена именно влиянием низкочастотных полей малой мощности, которые подавляют иммунную систему, способствуя тем самым образованию злокачественных опухолей. Напряженность таких патогенных полей создается мониторами ЭВМ на расстоянии уже 30 см. от экрана. Опасность рентгеновского и части других излучений большинством медиков признается пренебрежимо малой, поскольку их уровень достаточно невелик и в основном поглощается покрытием экрана.

Основным источником вредного воздействия мониторов является высокая напряженность электромагнитного поля, значения которой лежат пределах от 4 до 70 миллигаусс. Напряженность магнитного поля даже порядка 4 миллигаусс вредна для живой клетки. Установлено также, что самая опасная низкочастотная составляющая (до 100 Гц) способствует изменению биохимической реакции в крови на клеточном уровне, что приводит к возникновению у человека симптомов раздражительности, нервного напряжения и стресса, способствует возникновению рака. Весьма негативное воздействие на органы зрения оказывают также световые характеристики монитора, возникающие на экране световые блики, дрожание и мерцание самого экрана.

Расчёт значения ЭМИ

В соответствии с Санитарными правилами и нормами СанПиН 2.2.4/2.1.8.055-96 (утверждено постановлением ГосКомСанЭпидНадзора РФ от 08.05.96 № 9) [59, 60] оценка воздействия ЭМИ РЧ на людей осуществляется по следующим параметрам:

). По энергетической экспозиции, которая определяется интенсивностью ЭМИ РЧ и временем его воздействия на человека. Оценка по энергетической экспозиции применяется для лиц, работа или обучение которых связаны с необходимостью пребывания в зонах влияния источников ЭМИ РЧ;

). По значениям интенсивности ЭМИ РЧ. Такая оценка применяется: для лиц, работа или обучение которых не связаны с необходимостью пребывания в зонах влияния источников ЭМИ РЧ; для работающих или учащихся лиц, не достигших 18 лет; для женщин в состоянии беременности; для лиц, находящихся в жилых, общественных и служебных зданиях и помещениях, подвергающихся воздействию внешнего ЭМИ РЧ (кроме зданий и помещений передающих радиотехнических объектов); для лиц, находящихся на территории жилой застройки и в местах массового отдыха.

Так как деятельность инженера-исследователя связана с необходимостью пребывания в зоне влияния источников ЭМИ РЧ, оценку его воздействия необходимо осуществлять по энергетической экспозиции. Энергетическая экспозиция (ЭЭ) ЭМИ РЧ в диапазоне частот 30 кГц - 300 МГц определяется как произведение квадрата напряженности электрического или магнитного поля на время воздействия на человека. Таким образом, энергетическая экспозиция, создаваемая электрическим полем, ровна:

                                                                                (5.1)

и выражается в (В/м)2×ч. А, энергетическая экспозиция, создаваемая магнитным полем, ровна:

                                                                                  (5.2)

и выражается в (А/м)2×ч.

В случае постоянного пребывания в зоне влияния источников ЭМИ излучения, энергетическая экспозиция за рабочий день (рабочую смену) не должна превышать значений, указанных в таблице 5.1.

Таблица 5.1 Значения предельно допустимой энергетической экспозиции.

Диапазоны частот

По электрической составляющей, (В/м)2×ч

По магнитной составляющей, (А/м)2×ч

По плотности потока энергии (мкВт/см2)×ч

30 кГц - 3 МГц

20 000

200

-

3 МГц - 30 МГц

7 000

Не разработаны

-

30 МГц - 50 МГц

800

0.72

-

50 МГц - 300 МГц

800

Не разработаны

-

300 МГц - 300 ГГц

-

-

200


К сожалению, в нашей стране не разработан стандарт, нормирующий значение ЭМИ специально для мониторов. В Европе наибольшее распространение получил стандарт ТСО [61], разработанный Шведской Конфедерацией Профессиональных Коллективов Рабочих. Стандарт TCO разработан исключительно для мониторов и определяет величину максимально допустимых электромагнитных излучений при работе монитора, а также устанавливает стандарт на функции энергосбережения мониторов. Согласно последним требованиям, стандарт ТСО'03 определяет уровень излучения магнитных и электрических полей в 2-х полосах частот: 5 Гц - 2 кГц и 2 - 400 кГц. На расстоянии 50 см от монитора напряженность электрического поля в нижней полосе частот не должна превышать 10 В/м, а в верхней - 1,0 В/м, соответственно напряженность магнитного поля - 200 и 25 нТ.

При работе над дипломным проектом все исследования выполнялись за компьютером с монитором ACER AL1912. Он соответствует стандартом ТСO’03, а также удовлетворяет требованиям СанПиН 2.2.4/2.1.8.055-96. Значение электрической и магнитной составляющей излучения на расстоянии 50 см составляет для сверхнизких частот - 10 В/м, 200 нТ, а для низких - 1 В/м, 25 нТ. Таким образом, энергетическая экспозиция (ЭЭЕ) для электрической составляющей в случае восьми часового рабочего дня ровна для сверхнизких частот - 800 (В/м)2×ч, а для низких - 8 (В/м)2×ч. Энергетическая экспозиция (ЭЭМ) для магнитной составляющей в случае восьми часового дня ровна для сверхнизких частот - 0.2×10-9 (А/м)2×ч, а для низких - 0.32×10-16 (А/м)2×ч.

Расчёт допустимого времени нахождения в зоне ЭМИ

Предельно допустимые значения интенсивности ЭМИ РЧ (ЕПДУ, НПДУ) в зависимости от времени воздействия в течение рабочего дня (рабочей смены) и допустимое время воздействия в зависимости от интенсивности ЭМИ РЧ определяются по формулам

,                                                             (5.3)

                                                             (5.4)

Значения предельно допустимых уровней напряженности электрической () и магнитной () составляющих в зависимости от продолжительности воздействия приведены в таблице 5.2.

Таблица 5.2 Предельно допустимые уровни напряженности электрической и магнитной составляющих в диапазоне частот 30 кГц - 300 МГц в зависимости от продолжительности воздействия

Продолжительность Воздействия, Т, ч.

ЕПДУ, В/м

Нпду, А/м


0, 03-3 МГц

3-30 МГЦ

30-300 МГЦ

0.03-3 МГц

30-50 МГц

8.0 и более 7.5 7.0 6.5 6.0 5.5 5.0 4.5 4.0 3.5 3.0 2.5 2.0 1.5 1.0 0.5 0.25 0.125 0.08 и менее

52 53 55 58 60 63 67 71 76 82 89 100 115 141 200 283 400 500

30 31 32 33 34 36 37 39 42 45 48 52 59 68 84 118 168 236 296

10 10 11 11 12 12 13 13 14 15 16 18 20 23 28 40 57 80 80

5.0 5.0 5.3 5.5 5.8 6.0 6.3 6.7 7.1 7.6 8.2 8.9 10.0 11.5 14.2 20.0 28.3 40.0 50.0

0.30 0.31 0.32 0.33 0.34 0.36 0.38 0.40 0.42 0.45 0.49 0.54 0.60 0.69 0.85 1.20 1.70 2.40 3.00

Получаем, что согласно СанПиН 2.2.4/2.1.8.055-96, допустимое время воздействия для электромагнитной составляющей (в случае полного рабочего дня) равно 7,3 часа, а для магнитной составляющей - 8 часов.

Способы защиты

Снижение электромагнитного излучения (ЭМИ) можно обеспечить за относительно короткое время еще на стадии сборки компьютера. Необходимым условием является использование качественных компонентов, в которых полностью соблюдены требования электромагнитной совместимости, а также принципы проектирования материнских плат.

В компьютере немало компонентов, которые являются источниками электромагнитного излучения. К ним относится провод питания вентилятора процессора, который при большой длине может представлять собой источник электромагнитного излучения [62].

·    Следует максимально сократить его длину, сложив в несколько раз, наподобие серпантина и зафиксировав пластиковой стяжкой или резиновым кольцом.

·        Что касается конструкции радиатора охлаждения процессора, то следует учитывать, что соотношение расстояния между ребрами радиатора к длине ребер должно быть не менее 1/30. Если это соотношение меньше, то велика вероятность, что радиатор такого охладителя будет работать как щелевая антенна, создающая электромагнитные помехи.

·        Кабель питания материнской платы иногда улавливает электромагнитное излучение внутри корпуса, что может привести к сбоям в работе компьютера. Для исключения этого явления кабель питания материнской платы прокладывают рядом с металлическими частями, как можно дальше от радиатора процессора и разъемов ввода-вывода. Желательно также скрепить провода кабеля питания пластмассовыми стяжками (расстояние между стяжками не должно превышать 4 см).

·        Внутреннюю проводку также желательно проложить вдоль металлического корпуса, вдали от источников излучения: процессора, генераторов тактовых импульсов и высокоскоростных модулей памяти.

·        Кабели питания устройств должны быть скреплены друг с другом около блока питания, отдельно от кабеля питания системной платы и как можно дальше от радиатора процессора. Провода к индикаторам на передней панели корпуса прокладывают дальше от источников излучения и вентиляторов и вдоль металлического шасси.

·        Кабели USB должны иметь экранированный внутренний провод, заземленный на корпус в разъеме ввода-вывода.

·        В целом все кабели (как питания, так и сигнальные) следует прокладывать ближе к металлическим деталям корпуса и в стороне от модулей памяти.

·        В некоторых системах отдельное заземление радиатора помогает снизить ЭМИ. Обычно рекомендуют заземлять радиатор на источник питания или на корпус рядом с ним. У большинства материнских плат соединение между заземляющими цепями и корпусом осуществляется при помощи винта, обычно находящегося в пределах 20-40 мм от процессора.

·    Корпус системного блока должен быть плотно закрыт металлическими элементами конструкции, даже самая узкая щель способна пропускать излучение. В этом случае может образоваться подобие щелевой антенны.

·    Заклепки на корпусе или источнике питания могут стать причиной излучения, если они находятся на расстоянии больше 5 см друг от друга.

Следует избегать попадания в зону диаграммы направленности электромагнитных излучений нескольких мониторов ПК, для чего располагать свое рабочее место как можно дальше от других ПК. Максимум излучения сосредоточен по бокам и в задней части монитора, что предъявляет определенные требования к планированию взаимного расположения рабочих мест - операторы не должны находиться под влиянием ЭМИ соседних компьютеров

Не следует ни в коем случае переутомляться за видеомонитором. Работа менее 20 часов в неделю практически гарантирует безопасность. Монитор следует располагать на безопасном для зрения расстоянии (в пределах 50-60 см).

Соблюдение вышеперечисленных комплексных методов защиты позволяет снизить влияние вредных электромагнитных излучений. Так, при правильном размещении компонентов внутри компьютера излучение от монитора и системного блока можно ослабить излучении на 10 дБ. Выполнение требований по безопасной эксплуатации, комплексных мер защиты, а также использование компонентов, отвечающие современным отечественным и мировым стандартам по эргономике и безопасности позволяет сделать работу за компьютером более безопасной.

Пожарная безопасность

Главную пожарную опасность в рабочем помещении представляет электрооборудование. При эксплуатации электрооборудования должны выполняться инструкции техники безопасности. Мебель, корпуса аппаратуры, выполненные из легковоспламеняющихся материалов, могут послужить причиной пожара.

Помещение должно соответствовать нормативам по огнестойкости строительных конструкций, планировке зданий, этажности, оснащенности устройствами противопожарной защиты. Система профилактики пожара предусматривает обеспечение пожарной безопасности оборудования, электроустановок, систем отопления и вентиляции, предотвращение образования и внесения источников зажигания, предотвращение образования горючей среды.

Система пожарной защиты предусматривает применение негорючих и трудногорючих материалов, изоляцию горючей среды, применение средств для тушения пожара, пожарной сигнализации и извещения о пожаре, применение средств защиты людей, организацию пожарной охраны объекта.

В качестве средств тушения пожаров используются вода, химическая и механическая пена, негорючие газы и пары, порошкообразные вещества, покрывала из негорючих материалов и др. Электросети и электроустановки, которые находятся под напряжением, тушить водой нельзя ни в коем случае, т.к. через струю воды может произойти поражение электрическим током. Именно поэтому для тушения пожара, который возник из-за неисправности электроприборов, применяют только пенные огнетушители.

Очень важным организационным мероприятием является также проведение обязательного и периодически повторяемого инструктажа по электро- и пожаробезопасности всех лиц, которые допускаются к работе на ЭВМ. При проведении периодически повторяемых противопожарных инструктажей необходимо обязательно добиваться, чтобы персонал практически умел пользоваться первичными средствами тушения пожара и средствами связи. Возможность быстрой ликвидации пожара во многом зависит от своевременного оповещения о пожаре. Обычно на предприятиях электронной промышленности весьма распространенным средством оповещения является телефонная связь.

Выводы


Проанализированы требования по безопасности при эксплуатации, основные опасные и вредные факторы на рабочем месте инженера-исследователя при работе за компьютером над дипломным проектом на тему исследования зависимости речевых параметров от психоэмоционального состояния. Приведены допустимые значения показателей электромагнитного излучения согласно СанПиН 2.2.4/2.1.8.055-96, основные способы защиты от вредного воздействия электромагнитного излучения, произведён расчёт зависимости предельных значений интенсивности от времени, по результатам которого сделан вывод о допустимом времени нахождения при работе за компьютером. Таким образом, согласно СанПиН 2.2.4/2.1.8.055-96:

1.   Допустимое время воздействия для электрической составляющей (в случае полного рабочего дня) равно 7,3 часа, а для магнитной составляющей 8 часов.

2.       Предельно допустимые уровни напряженности электрической и магнитной составляющих в диапазоне частот 30 кГц - 300 МГц в течении 8-часового рабочего дня составляют соответственно 52 В/м и 5 А/м.

.        Значения предельно допустимой энергетической экспозиции составляет для электрической составляющей 20000 (В/м)2×ч, а для магнитной - 200 (A/м)2×ч.

Заключение


Результатом работы является выявление эффективного набора речевых характеристик, изменяющихся в зависимости от психоэмоциональных состояний: гнева, радости, грусти, страха и нейтральных эмоций, включающего в себя: джиттер, стандартное отклонение ЧОТ между сегментами, стандартное отклонение ЧОТ внутри сегмента, среднее, стандартное отклонение, минимальное и максимальное значение оператора ТЕО в критических полосах 51 Гц, 150 Гц, 250 Гц, 350 Гц, стандартное отклонение энергии сигнала.

Основываясь на данных дисперсионного анализа, было установлено, что шиммер, минимальное и максимальное значение энергии практически не зависят от изменения психоэмоционального состояния, а, параметры, связанные с частотой основного тона плохо разделяют между собой стенические и астенические эмоции. Нелинейные характеристики плохо разделяют астенические эмоции, зато способны отличить астенические состояния.

С помощью корреляции субъективных (многомерное представление результатов перцептивного теста) и объективных данных (усреднённые численные значения параметров) было была выявлена зависимость между эмоциональными измерениями и речевыми характеристиками. Для измерения Dim1 не наблюдается существенных корреляций с какими-либо из речевых характеристик, измерение Dim2 коррелирует с нелинейными характеристиками оператора ТЕО в полосе 250 Гц. Измерение Dim3 коррелирует с нелинейными характеристиками ТЕО в критической полосе 51 Гц и стандартным отклонением энергии сигнала, что означает, что данное измерение обусловлено в первую очередь энергией сигнала.

Экспериментальным путём был выявлен оптимальный набор параметров классификатора. Таким образом, при подаче на вход эффективного набора речевых характеристик процент распознавания психоэмоциональных состояний для обучающей выборки составил 76% , а для тестовой выборки - 63%.

Проведённый перцептивный тест позволил сравнить результаты классификации с субъективной оценкой психоэмоциональных состояний. Было установлено, что процент распознавания данных классификатором для нейтрального состояния, гнева и радости существенно не отличается от результатов перцептивного теста. Процент же распознавания эмоции грусть и эмоции страх в случае субъективной оценки выше.

В организационно - экономическом разделе была проведена сегментация рынка программы автоматической идентификации психоэмоционального состояния.

В разделе производственная и экологическая безропасность был проведён анализ производственной и экологической безопасности на рабочем месте инженера-исследователя, и выполнен расчёт предельно допустимого значения времени нахождения в зоне электромагнитного излучения компьютера.

Список литературы


1. Burkhardt F., Paeschke A., Rofles M., Sendlmeier W., Weis B. A database of german emotional speech // Interspeech 2005;

. chroder M. Speech and emotion research: An overview of research frameworks and a dimensional approach to emotional speech synthesis // PhD thesis;

. Fairbanks G., Hoaglin L. An experimental study of the durational characteristicsthe voice during the expression of emotion // Speech Monograph, v. 8, 1941;

. Cowie R., Cornelius R. Describing the emotional states expressed in speech // Speech Communication, v 40, № 1-2, 2003;

5. Леонтьев В.О. Классификация эмоций // Одесса, 2001;

6. Plutchik R. The psychology and biology of emotion // N.: Haryer.Collins, 1994;

. Ekman P. Facial expression and emotion // American Psychologist, v. 48, №. 4, 1993;

. Изард К. психология эмоций // Спб, 1999;

8.Понятие эмоции // <http://www.scorcher.ru/neuro/science/emotion/mem72.htm>;

9.Banse R., Scherer K. Acoustic profiles in vocal emotion expression // JournalPersonality and Social Psychology, 70(3), 1996;

10.Zwicker E., Fastl H. Psychoacoustics. Facts and Models // Springer Series in information sciences, v. 22, Berlin, 1999;

11.Rosenfield E., Massaro D., Bernstein J. Automatic Analysis of Vocalof Apparent Mood or Affect // USA Department of Psycholody, University of California at Santa Cruz, 2003;

.Teager H., Teager S. Evidence for Nonlinear Production Mechanisms in Vocal Tract // Speech Production and Speech Modeling v.55, pp.241-261, 1990;

.Zhou G., Hansen H., Kaiser J. Nonlinear Feature Based Classification of Speech under Stress // IEEE Transactions on Speech & Audio Processing, v. 9, № 2, pp. 201-216, 2001;

14.Андреева И. Эмоциональный интеллект: исследование феномена // Вопросы психологии, №3, 2006.

15.Stibbard R. Vocal expression of emotions in non-laboratory speech: An investigation of the Reading/Leeds Emotion in Speech Project annotation data // PhD thesis,of Reading, UK, 2001;

.Wundt W. Outlines of Psychology// Scholarly Press, 1999;

.Schlosberg H. Three dimensions of emotion // Psychological Review, 61(2), 1954;

.Osgood C., Suci G., Tannenbaum, P. The measurement of meaning // University of Illinois Press, Urbana, USA, 1957;

.Watson D., Tellegen A. Toward a consensual structure of mood // Psychological Bulletin, 1985;

.Jovicic S., Rajkovic M., Dordevic M., Kasic Z. Perceptual and statistical analysis of emotional speech in man-computer communication // SPECOM’2006, Saint-Petersburg;

21.Терёхина Ю.А. Многомерное шкалирование в психологии // Психологический журнал, т.4, №1, 1993;

22.Uldall E. Attitudinal meanings conveyed by intonation contours // Language and, 1960;

.Kwang-Dong J., Oh-Wook K., Emotion recognition for affective human-robot interaction // SPECOM’2006, St.Petesburg, June, 2006.

25.Torgerson W. Multidimentional scaling: I Theory and Method // Psychometrika, v.17, № 3, pp. 401-419, 1952;

.Boersma P. Accurate short-term analysis of the fundamental frequency and the harmonics-to-noise ratio of a sampled sound // Proc. Institute of Phonetic Sciences, 1993;

27.Fernandez R. A computation model for the automatic recognition of affect in speech // Ph.D. Thesis, MIT Media Arts and Science, Massachusetts Institute of Technology, 2004;

.Li X., Tao J., Jonson M., Solits J., Savage A. Stress and emotion classification using jitter and shimmer features // ICASSP 2007;

29.Kaiser J. On Teager’s energy algorithm, its generalization to continuous signals 4th IEEE Digital Signal Processing Workshop, NY, 1990;

.Maragos P., Kaiser J., Quatieri T. Amplitude and frequency demodulation using energy operators // IEEE Trans. Signal Processing, v. 41, pp.1532-1550, 1993;

31.Schotz S. perception, analysis and Synthesis of speaker age // Department of Linguistic and Phonetics Centre for Languages and Literature, Loud University, 2006;

32.Афифи А., Эйзен С. Статистический анализ. Подход с использованием ЭВМ // М: Мир, 1982, c. 234-244;

.Гусев А.Н. Дисперсионный анализ в экспериментальной психологии // Методическое пособие для студентов факультетов психологии вузов, М: Психология, 2000;

.Лабоцкий В.В. Анализ экономических данных с использованием Statistica  методическое пособие, 2006;

35.Минковский Г. Пространство и время // Успехи Физических Наук (УФН), т.69,в.2, 1959;

36. Sammon J. A nonlinear mapping for data structure analysis // IEEE Trans. Computers, v. 18, № 5, pp. 401-409, 1969;

.Guttman L. A general nonmetric technique for finding the smallest coordinate space for a configuration of points // Psychometrika, v. 33, № 4, pp. 469-506, 1969;

.Johnson R. Pairwise nonmetric multidimensional scaling // Psychometrika, v. 38, № 1, pр. 11-18, 1973;

39.Leeuw J. Multidimentional scaling // Department of statistic papers, University of California, Los Angeles, 2000;

40.Статистика и обработка данных в психологии // http://psyfactor.org/lib/stat3.htm;

41.Wilting J. Krahmer E. Swerts M. Real vs. acted emotional speech // Communication and Cognition, Tilburg University, The Netherlands, 2006 ;

.McIntyre G. Gocke R. Researching emotions in speech // 11th Australian International Conference on Speech Science & Technology, 2006;

.Velten E. A laboratory task for induction of mood states // Behavior Research & Therapy, 6, 1968;

44.Станиславский К. С. Работа актёра над собой //М: Художественная литература, 1938;

45.Витт Н.В. Личностно-ситуационная опосредованность выражения и распознавания эмоции в речи // <http://www.voppsy.ru/issues/1991/911/911095.htm>;

.Пашина А.Х. К проблеме распознавания эмоционального контекста звуковой речи // <http://www.voppsy.ru/issues/1991/911/911088.htm>;

.Маслобоев Ю.П., Рычагов М.Н. Нейронные сети // Методическое пособие, М: МИЭТ, 2006;

.Уоссермен Ф. Нейрокомпьютерная техника // neurnews.iu4.bmstu.ru/book/nkt/;

.Яхъяева Р.Э. Основы нейронных сетей // www.intuit.ru/department/ds/neuronnets/;

.Видяпин В.И., Борисов А.С., Данько Т.П. Бакалавр экономики т.2 // Триада-X, 1999;

.Моисеева Н.К., Костина Г.Д. Маркетинговые исследования при создании и использовании программных продуктов Методические указания для выполнения курсовых и дипломных работ по специальности «Менеджмент» М.: МГИЭТ (ТУ), 1996;

.Короткова Т.Л., Лукичева Л.И. Методические указания по выполнению курсовых работ и организационно-экономической части дипломных проектов по тематике курса «Основы маркетинга» // М.: МГИЭТ (ТУ), 1994.

.Багиев Г.Л., Богданова Е.Л. Маркетинг-статистика // Электронный учебник, <http://www.marketing.spb.ru/read/m9/index.htm>;

. Affective Computing: техника не разделяет наши чувства // Интернет-журнал Мембрана, 2003;

.под ред. Белова С.В. охрана окружающей среды // М., Высшая школа, 1983;

Константинова Л.А. Ларионов Н.М. Писеев В.М. Методические указания по выполнению раздела «Охрана труда» в дипломном проекте для студентов МИЭТ // МИЭТ, 1988;

. Каракерян В.И. Писеев В.М. Методы и средства обеспечения оптимальных параметров производственной среды на предприятиях электронной промышленности // МИЭТ, 1987;

. Электробезопасность. Общие требования и номенклатура видов защиты // ГОСТ 12.1.019-79* ССБТ, 1980;

. Санитарные правила и нормы по ЭМИ // Государственная система санитарно-эпидемиологического нормирования Российской Федерации. Федеральные санитарные правила, нормы и гигиенические нормативы, СанПиН 2.2.4/2.1.8.055-96, 1996;

. Электромагнитные излучения радиочастотного диапазона (ЭМИ РЧ). Санитарные нормы и правила // Минздрав РФ, Изменение №1 к СанПиН 2.2.4/2.1.8.055-96, СанПиН 2.2.4/2.1.8.989-00, 2000;

. Стандарты безопасности ТСО // <http://www.divi.ru/text/standarty-lcd.shtml>;

. Дич И. Методы снижения электромагнитного излучения на вашем компьютере // <http://www.atlant.ru/comar/stati_17119.htm>.

Список сокращений


Аббревиатура

Значение

ОТ

Основной тон

ЧОТ

Частота основного тона

ТЕО

Тeager Energy Operator (энергетический оператор Теагера)

N

Нейтральные эмоции

A

Гнев

F

Страх

S

Грусть

H

Радость

НС

Нейронные сети

БНС

Биологические нейронные сети

ЭВМ

Электронно-вычислительная машина

ПК

Персональный компьютер

MS

Среднеквадратичный

SS

Сумма квадратов

Dim1

Измерение 1

Dim2

Измерение 2

Dim3

Измерение 3

ЭЛТ

Электронно-лучевая трубка

НЧ

Низкие частоты

СВЧ

Сверхвысокие частоты

РЧ

Радио частоты

ЭМИ

Электромагнитное излучение


Похожие работы на - Исследование зависимости речевых параметров от психоэмоционального состояния человека

 

Не нашли материал для своей работы?
Поможем написать уникальную работу
Без плагиата!