Дослідження ефективності застосування марковських прихованих моделей для побудови голосових компонент інтерфейсу користувача з програмними додатками
Дипломна робота
Дослідження ефективності застосування марковських прихованих
моделей для побудови голосових компонент інтерфейсу користувача з програмними
додатками
Вступ
голосовий
програма інтерфейс
Актуальність проблеми. На даний час найбільш
поширений інтерфейс користувача з програмними додатками включає в себе
використання маніпулятора «миша» та клавіатури. Однак очевидними є зайві
затрати часу на виконання окремих операцій за рахунок використання цих
пристроїв. Таким чином актуальною є тема підвищення ефективності використання
традиційних інтерфейсів користувача з програмними додатками за рахунок
включення до його складу голосової взаємодії. Дана робота присвячена
дослідженню ефективності застосування марківських прихованих моделей для побудови
голосових компонент інтерфейсу користувача з програмними додатками.
В історії розвитку 1952 рік можна вважати роком
народження систем розпізнавання мови. Компанія Bell Laboratories розробила
систему названу Одрі, яка розпізнавала цифри, сказані одним голосом. Через 10
років компанія IBM представила комп'ютер Shoebox зі здатністю розпізнавати 16
слів англійською мовою.
Голосові технології міцно увійшли в наше
повсякденне життя. В наш час системи голосового інтерфейсу отримують практичне
застосування в телекомунікація, мобільних пристроях, побутових пристроях,
автомобілях, освіті, комп'ютерних системах, інтернеті, системах доступу,
аерокосмосі, військовому комплексі, іграх.
Створення інтерфейсу користувача має бути
націлене на показники ефективності людино-машинної системи, які можна виміряти
кількісно і об'єктивно:
- продуктивність
праці;
- точність роботи
(кількість помилок);
- функціональна
повнота;
- завершеність
роботи;
- простота
освоєння.
Найбільш поширені інтерфейси, з використанням
клавіатури та миші, не відповідають усім заявленим вимогам. Сучасні комп'ютерні
програми все більшою мірою стають орієнтованими на користувача, і як
альтернатива пропонується голосовий інтерфейс. На сьогоднішній день найбільш
поширеним алгоритмом розпізнавання мови є приховані марківські моделі. Він
використовується в різних програмних додатках, але ефективність застосування
марковських прихованих моделей для побудови голосових компонент інтерфейсу
користувача з програмними додатками потребує досліджень.
Проблема розробки голосового інтерфейсу є досить
складною і комплексною, що вимагає від розробника знань у різних предметних
областях, таких як комп'ютерні науки, лінгвістика та психологія поведінки
людини. Навіть при наявності просунутих засобів проектування, розробка ефективного
голосового інтерфейсу вимагає від його творців детального розуміння як задач,
виконуваних системою, так і психології користувачів системи.
Об’єктом дослідження є голосовий інтерфейс.
Предмет дослідження - моделі та методи
побудови голосового інтерфейсу.
Робота складається з вступу, п’ятьох розділів і
висновку. В першому розділі наведені проведений огляд літератури, описані
критерії та оцінка ефективності інтерфейсу, розлянено практичнее використання
голосового інтерфейсу, системи розпізнавання мови та програмне забезпечення для
реалізації данної технології. У другому розділі розглянуто методику побудови та
оцінювання ефективності голосового інтерфейсу. У третьому розділі розроблена
структурно-функціональна схема та архітектура програмної реалізації голосового
інтерфейсу, представлений опис програм. У четвертому розділі представлені
результати експериментальних дослідженнь у програмах з голосовим інтерфейсом,
які використовують приховані марківські моделі для розпізнавання голосових
команд. У п’ятому розділі розглянуто охорону праці у відділі інформаційних
технологій.
1. Аналіз шляхів налагодження інтерфейсу користувача з програмними
додатками
.1 Існуючі технології інтерфейсів, критерії та
оцінка їх ефективності
Інтерфейс (від англ. interface - поверхня
розділу, перегородка) - сукупність засобів і методів взаємодії між елементами
однієї системи. Засіб сполучення пристроїв обчислювальної техніки (апаратний
інтерфейс); організація взаємодії людини і комп'ютерної програми (програмний
інтерфейс) [23, C.12].
Основне завдання інтерфейсу - сховати від
користувача технічні деталі й складності, що стосуються внутрішньої роботи
системи, зробити спілкування із системою простим і зрозумілим навіть для
непідготовленого користувача [9].
Інтерфейс користувача (user interface) - різновид
інтерфейсів, в якому одна сторона представлена людиною (користувачем), інша -
машиною (пристроєм). Він являє собою сукупність засобів і методів, за допомогою
яких користувач взаємодіє з різними машинами і пристроями. Це програмне
середовище, яке представлене користувачеві з ціллю ефективного управління
апаратними засобами комп'ютера, реалізації технічних можливостей комп'ютера або
комп'ютерної мережі [23, C.12].
Інтерфейс користувача комп'ютерного додатка
включає:
- засоби відображення
інформації, що відображається інформацію, формати і коди;
- командні режими,
мова «користувач-інтерфейс»;
- пристрої та
технології введення даних;
- діалоги,
взаємодія і транзакції між користувачем і комп'ютером, зворотний зв'язок з
користувачем;
- підтримку
прийняття рішень у конкретній предметній області;
- порядок
використання програми і документацію на неї[29].
Набір прийомів взаємодії користувача з додатком
називають інтерфейсом користувача. Під додатком розуміється пакет прикладних
програм для певної області застосування і споживання інформації.
Інтерфейс користувача включає три поняття:
- спілкування
додатка з користувачем;
- спілкування
користувача з додатком;
- мову спілкування,
яка визначається розробником програмного додатка [6, 288c].
Виділяють наступні види інтерфейсів:
) Текстовий інтерфейс користувача, зокрема
інтерфейс командного рядка.
При технології командного рядка як способу
введення інформації зазвичай служить клавіатура, а дисплей засобом виведення.
Команди набираються в командному рядку.
При пакетній технології спочатку накопичуються
дані, і формується пакет даних, а потім пакет послідовно обробляється низкою
програм. Недоліки цього режиму - низька оперативність прийняття рішень і
відособленість користувача від системи.
) Графічний інтерфейс. В цьому інтерфейсі машині
подаються команди через графічні образи, використовуючи для введення інформації
клавіатуру та мишку.
На сьогоднішній день існують наступні інтерфейси
цього виду:
A. Простий графічний інтерфейс;
B. Віконний інтерфейс;. WIMP-інтерфейс;. Веб-орієнтований
інтерфейс;. Масштабований інтерфейс користувача.
) SILK-інтерфейс (Speech - мова, Image - образ,
Language - мова, Knowlege - знання). Комп'ютер знаходить для себе команди,
аналізуючи людську поведінку.
При голосовій технології команди подаються
голосом шляхом проголошення спеціальних зарезервованих слів - команд.
При біометричній технологіії людина постає як
сукупність ознак поведінки. Картинка зчитується з цифрової відеокамери, а потім
за допомогою спеціальних програм розпізнавання образів з цього зображення
виділяються команди.
Про технологію семантичного інтерфейсу відомо
вкрай мало. Схоже, що вона тісно пов'язана з штучним інтелектом і подібна зі
всіма підвидами SILK та іншими видами теж. Можливо, що у зв'язку з важливим
військовим значенням цих розробок ці напрямки були засекречені. (4)
На сьогоднішній день існують наступні інтерфейси
цього виду:. Жестовий інтерфейс. Голосовий інтерфейс. Матеріальний
інтерфейс користувача. Сензитивні інтерфейси. Тактильні інтерфейси
Далі більш детально їх розглянемо.
. Текстовий інтерфейс користувача
Текстовий інтерфейс користувача (англ. text user
interface, TUI; також Character User Interface, CUI) - різновид інтерфейсу
користувача, що використовує при введенні-виведенні і представлені інформації
виключно набір букво-цифрових символів і символів псевдографіки.
Характеризується малою вимогливістю до ресурсів апаратури введення-виведення
(зокрема, пам'яті) і високою швидкістю відображення інформації, тому широко
використовувався на початковому етапі розвитку обчислювальної техніки. Також,
його різновид -інтерфейс командного рядка, має окремі переваги перед графічним
інтерфейсом. Тому програми, засновані на текстовому інтерфейсі користувача,
мають деяке поширення до цього часу, особливо в специфічних сферах і на
малопотужному обладнанні.
У простому випадку текстовий інтерфейс
користувача використовує інтерфейс командного рядка, однак багато програм за
допомогою інтерактивних елементів створюють більш дружній інтерфейс, що
наближається по зручності до графічного. У текстовому інтерфейсі реалізовані
всі базові елементи інтерфейсу, пізніше перенесені в графічний інтерфейс - меню
(як список, так і випадні), кнопки, радіо-кнопки, чек-бокси, смуги прокрутки і
т.д. Багато програм реалізовували розвинену віконну систему, деякі мали змінні
скіни (наприклад, DOS Navigator) і підтримували різні пристрої інтерактивної
взаємодії, такі як миша, джойстик, світлове перо.
Командний інтерфейс називається так тому, що в
цьому виді інтерфейсу людина подає «команди» комп'ютеру, а комп'ютер їх виконує
і видає результат людині. Командний інтерфейс реалізований у вигляді пакетної
технології та технології командного рядка[11].
На пристрої-консолі, яке друкувало текст на
папері, інтерфейс командного рядка був єдиним можливим. На відеотерміналах
інтерфейс командного рядка застосовується з таких причин:
- невеликий витрата
пам'яті в порівнянні з системою меню;
- у сучасному
програмному забезпеченні є велика кількість команд, багато з яких потрібні
вкрай рідко. Тому, навіть в деяких програмах з графічним інтерфейсом
застосовується командний рядок: набір команди (за умови, що користувач знає цю
команду) здійснюється набагато швидше, ніж, наприклад, навігація по меню;
- природне
розширення інтерфейсу командного рядка - пакетний інтерфейс. Його суть в тому,
що в файл звичайного текстового формату записується послідовність команд, після
чого цей файл можна запустити в програмі, що здобуде такий же (не менший)
ефект, як якби ці команди були по-черзі введені в командний рядок. Приклади -
.bat-файли в DOS і Windows. Якщо програма повністю або майже повністю може
управлятися командами інтерфейсу командної строки і підтримує пакетний
інтерфейс, вміле поєднання інтерфейсу командного рядка з графічним надає
користувачеві дуже потужні можливості[29].
. Графічний інтерфейс
Графічний інтерфейс користувача (ГІК), графічний
користувацький інтерфейс (ГКІ) (англ. Graphical user interface, GUI) - різновид
інтерфейсу користувача, в якому елементи інтерфейсу (меню, кнопки, значки,
списки і т. п.), представлені користувачеві на дисплеї, виконані у вигляді
графічних зображень. На відміну від інтерфейсу командного рядка, в ГКІ
користувач має довільний доступ, за допомогою пристроїв введення (клавіатури,
миші і т. п.), до всіх видимих екранних об'єктів (елементів інтерфейсу) і
здійснює безпосереднє маніпулювання ними. Найчастіше елементи інтерфейсу в ГКІ
реалізовані на основі метафор та відображають їх призначення і властивості, що
полегшує розуміння й освоєння програм користувачами.
Далі представлені підвиди цього виду інтерфейсу.
А. Простий графічний інтерфейс, який на першому
етапі дуже був схожий на технологію командного рядка з наступними
відмінностями:
- при відображенні
символів з метою підвищення
виразності зображення допускалося виділення частини символів кольором,
інверсним зображенням, підкресленням і мерехтінням;
- курсор міг бути
представлений деякою областю, виділеної кольором, і охоплювати кілька символів,
навіть частину екрану;
- реакція на
натискання будь-якої клавіші стала залежати від того, в якій частині екрану
знаходиться курсор;
- крім часто
використовуваних клавіш, для управління курсором стали використовуватися
маніпулятори типу миші і т. п., які дозволяли швидко виділяти потрібну область
екрану і переміщувати курсор;
- широке використання
кольорових моніторів.
Поява простого графічного інтерфейсу збігається з
широким розповсюдженням операційної системи MS DOS. Типовим прикладом його
використання є файлова оболочка Нортон Командир і текстові редактори MaltiEdit,
ChiWriter, Microsoft Word для DOS та ін.
В. Віконний інтерфейс
Віконний інтерфейс - спосіб організації
повноекранного інтерфейсу програми, в якому кожна інтегральна частина
розташовується у вікні, власному суб-екранному просторі, що знаходиться в
довільному місці «над» основним екраном. Кілька вікон, одночасно розташованих
на екрані, можуть перекриватися, перебуваючи «вище» або «нижче» один від
одного. Незважаючи на те, що найбільш природним для віконного інтерфейсу є
графічний режим, основні його елементи можна застосувати й у текстовому режимі,
де він застосовується в рівній мірі. Процедури підтримки віконного інтерфейсу
покликані відмальовувати екран з розташованими «поверх нього» вікнами і
розподіляти введення інформації користувачем між ними (при існуванні кількох
рівноправних вікон введення інформації користувачем здійснюється в те, яке в
даний момент є активним). Вікно зазвичай має прямокутну форму, з обрамленням та
/ або кольором фону, відмінним від кольору основного екрану. При необхідності
вікно має заголовок і органи управління[29].
С. WIMP-інтерфейс (Window - вікно, Image - образ,
Menu - меню, Pointer - покажчик). Хоча і в цьому інтерфейсі машині подаються
команди, але це робиться «безпосередньо», через графічні образи.інтерфейс,
з'явився другим етапом розвитку графічного інтерфейсу, який характеризується
такими особливостями:
- вся робота з
програмами, файлами і документами відбувається у вікнах;
- всі дії з
об'єктами здійснюються за допомогою меню, яке стає основним елементом
управління;
- маніпулятор
виступає в якості головного засобу керування [6, 288 c.].
Однією з вимог до хорошого графічному інтерфейсу
програмної системи є концепція «роби те, що я маю на увазі» або DWIM (англ. Do
What I Mean). DWIM вимагає, щоб система працювала передбачувано, щоб користувач
заздалегідь інтуїтивно розумів, яку дію виконає програма після отримання його
команди[2].. Веб-орієнтований інтерфейс
Веб-додаток - клієнт-серверний додаток, в якому
клієнтом виступає браузер, а сервером - веб-сервер. Логіка веб-додатків
розподілена між сервером та клієнтом. Зберігання данних здійснюється,
переважно, на сервері, обмін інформацією відбувається по мережі. Одним із
переваг такого підходу є той факт, що клієнти не залежать від конкретної
операційної системи користувача, тому веб-додатки є міжплатформенними
сервісамі.
Істотна перевага побудови веб-додатків для
підтримки стандартних функцій браузера заключається в тому, що функції повинні
виконуватися незалежно від операційної системи даного кліента. Замість того щоб
писати різні версії для Microsoft Windows, Mac OS X, GNU / Linux і інших
операційних систем, додаток створюється один раз для довільно обраної платформи
і на ній розвертається. Однак різна реалізація HTML, CSS, DOM і інших
специфікацій в браузерах може викликати проблеми при розробці веб-додатків і
подальшій підтримці. Крім того, можливість користувача налаштовувати багато
параметрів браузера (наприклад, розмір шрифту, кольору, відключення підтримки
сценаріїв) може перешкоджати коректній роботі додатку. Інший (менш
універсальний) підхід полягає у використанні Adobe Flash або Java-аплетів для
повної або часткової реалізації інтерфейсу користувача. Оскільки більшість
браузерів підтримують ці технології (як правило, за допомогою плагінів), Flash
або Java-додатки можуть виконуватись з легкістю. Так як вони надають
програмісту більший контроль над інтерфейсом, вони способні обходити багато
несумісностей в конфігураціях браузерів, хоча несумісність між Java чи Flash
реалізаціями на стороні клієнта може призводити до різних ускладнень.
Веб-додаток отримує запит від клієнта і виконує
обчислення, після цього формує веб-сторінку та відправляє її клієнту по мережі
з використанням протоколу HTTP. Сам веб-додаток може виступати в ролі клієнта
інших служб, наприклад, бази даних або іншого веб-додатку, розташованого на
сервері.. Масштабований інтерфейс користувача(англ. Zooming User Interface або
Zoomable User Interface - масштабований інтерфейс користувача) - графічний
інтерфейс користувача, де робочий простір являє собою більшу чи необмежену
площину, на якій розташовані основні елементи, властивості і вміст яких стають
доступні у міру їх «наближення» шляхом збільшення. Подальше наближення вмісту
робить доступним більш глибокі рівні. Таким чином, наприклад, маленька кнопка
може мати на собі, крім основного надпису або значка, ще й цілу інструкцію по
використанню, яку може бути не видно при розмірі кнопки в 1 сантиметр, але яку
можна з легкістю прочитати, якщо збільшити зображення кнопки [6, 288 c.].
. SILK-інтерфейс (Speech - голос, Image -
образ, Language - мова, Knowlege - знання). Команди у цьому виді інтерфейсу
подаються за допомогою голосу, жестів і т. п.
Цей вид інтерфейсу включає наступні підвиди:. Жестовий
інтерфейс
Жестовий інтерфейс - підмножина системи введення
інформації для графічного інтерфейсу користувача, в якій використовується
спеціальне обладнання, або пристрої введення, відмінні від клавіатури, або
використовуються сенсорні екрани і дозволяє емулювати клавіатурні команди (або
поєднання клавіш) за допомогою жестів. Основною мотивацією розробки таких
інтерфейсів є поліпшення ергономічності керування, з відмовою від звичного для
комп'ютерних програм меню програми.
Подібний інтерфейс може бути реалізований як за
допомогою пристроїв координатного введення з можливістю зчитування координати
однієї точки дотику (миша або графічний планшет), так і таких, в яких є
можливість зчитування координат більш ніж однієї точки (наприклад, мультидотик,
мультитач) - сенсорні екрани і панелі. Останні стали широко застосовуватися в
інтерфейсах безлічі сучасних смартфонів з сенсорним екраном (наприклад, iPhone)
і ноутбуків (як з тачпадом, так з сенсорним екраном) і інших мобільних
пристроїв.
У разі для пристроїв з великим розміром екрана,
наприклад, планшетних ПК, жести є стандартними функціями інтерфейсу управління
та пір'яного введення. У кишенькових пристроїв, на відміну від класичних
графічних інтерфейсів користувача, малі фізичні розміри екрану, і тому потрібна
менша точність позиціонування, ніж для доступу до традиційних елементів
графічного інтерфейсу - натискання «кнопки» або вибору пункту меню.. Голосовий
інтерфейс
З технологічної точки зору весь інформаційний
процес тут розділяється на декілька послідовних етапів, на кожному з яких
використовується своя базова технологія. Такими етапами в даному випадку є:
- Аналого-цифрове
перетворення мовного сигналу і введення отриманої цифрової інформації в пам'ять
комп’ютера. Базовою технологією тут є аналого-цифрове перетворення, а
реалізується ця технологія, як правило, апаратним способом за допомогою
спеціальних електронних пристроїв, характеристики яких заздалегідь оптимізовані
і добре відомі проектувальникам.
- Виділення в
складі цифрової мовної інформації окремих фонем тієї мови, на якому
проголошувалася мова, і ототожнення їх з типовими «образами» цих фонем, що
зберігаються в пам'яті обчислювальної системи. Базовою технологією тут є
технологія розпізнавання.
- Перетворення
голосової інформації в текстову форму і здійснення процедур її морфологічного
та синтаксичного контролю. Базовими технологіями тут є процедури морфологічного
та синтаксичного контролю тексту, сформованого на основі аналізу мовної
інформації, та внесення в нього необхідного коректування, пов'язаного з
виправленням помилок[23].. Матеріальний інтерфейс користувача
Матеріальний інтерфейс користувача - це
різновидність інтерфейсу користувача, в якому взаємодія з цифровою інформацією
відбувається за допомогою матеріальної конструкції. Матеріальні інтерфейси
користувача, такі як матеріальні біти - це спроба надати цифровій інформації
фізичний облік, роблячи біти відчутними і тому доступними безпосередньо. При
цьому переслідується мета нерозривно зв’язати такі різні сутності, як світи
бітів і атомів. Прикладом матеріального інтерфейсу користувача можна назвати
кульовий автовідповідач Дюрелла Бішопа. Кожна кулька відповідає повідомленням,
залишеному на автовідповідачі. Переміщення кульки в спеціальну виїмку відтворює
пов'язане з ним повідомлення або викликає того хто дзвонив. Інший приклад -
система Топобо. Блоки її нагадують елементи конструктора LEGO, які можуть
з'єднуватися разом, але, в той же час, переміщатися самостійно за рахунок
моторчиків. Можна тягнути, штовхати або повертати ці елементи; вони
запам'ятають ці дії і здатні їх відтворити. Інша реалізація дозволяє
користувачеві матеріальним пером намалювати малюнок на столі системи.
Використовуючи попередньо запрограмовані «жести», можна клонувати картинку або
розтягувати по двох осях, як у програмі малювання[29].. Сензитивні
інтерфейси
Сензитивний інтерфейс - тип інтерфейсу, що
дозволяє користувачеві управляти пристроєм, завдяки натисненню на екран пальцем
або ручкою-стилусом.
У цьому інтерфейсі використовується популярна
технологія Multi-Touch, її можна застосовувати до таких пристроїв як сенсорні
панелі та екрани, що розпізнають кілька торкань одночасно.
Дотик по екрану пальцем або ручкою-стилусом - є
тач, а дотик декількома пальцями одночасно - мульти-тач. На сьогоднішній день з
технічної точки зору існує безліч абсолютно різних підходів до реалізації
сенсорних поверхонь.
Є два види екранів: резистивний і ємнісний.
Резистивна технологія відносно стара, яка стає
вже неактуальною. Вони використовуються в тач-скронях, КПК і т. п. У цій
технології користувач може використовувати стилус для більш точного натискання
або будь-який предмет, що нагадує стилус. Ця технології має безліч недоліків,
таких як невисока чутливість, механічний знос, відносно великі фізичні розміри,
схильність до випадкових дотиків.
Ємкісна технологія набагато ефективніше
резистивної. Ємнісний підхід більш точний і більш довговічний. Так само
технологія дозволяє розпізнавати кілька торкань одночасно, але реагує тільки на
людські пальці (та інші об'єкти з подібними електричними характеристиками).
Використання класичних стилусів, або підручних
засобів в їх якості - неможливо, але на ринку присутні спеціальні стилуси, по
суті, імітують властивості людського пальця.
До інших менш поширеним технологій відносяться
інфрачервоне позиціонування, розпізнавання поверхневих акустичних хвиль,
оптичне розпізнавання, дисперсія сигналу.. Тактильні інтерфейси
Тактильний інтерфейс користувача - це спосіб
користувачеві тактильно відчути те, що зображено на екрані. Замість вібрації,
часто застосовується в апаратах з сенсорним управлінням, для створення ілюзії
змін на поверхні екрана. В останні роки тактильні технології стали популярні в
дослідженнях, присвячених проблемам штучного інтелекту і віртуальної
реальності. Почуття дотику виявляється найважливішим компонентом для
відтворення віртуального середовища, який повинна викликати повну ілюзію
реальності.
На даний час існує три тактильні технології:
- обертовий
ексцентричний маховик;
- лінійний
резонансний привід;
- п'єзоприводи.
Обертовий ексцентричний маховик - найстаріша
тактильна технологія на ринку. Пристрій з тактильною функцією складається з
маховика зі зміщеною віссю, що при обертанні створює всенаправлені вібрації. Ці
коливання виникають в стільниковому телефоні в режимі вібродзвоника.
Для реалізації більш сучасної тактильної
технології використовується лінійний резонансний привід. Він являє собою
електромагніт з обмоткою і прикріпленою до нього пружиною.
П'єзоелектричні приводи складаються з плівки -
датчика, який перетворює електричну напругу в механічні коливання. Ці датчики
застосовуються також у системах збору енергії і в динаміках[8].
Далі розглянемо цілі та критерії оцінки
ефективності інтерфейсу користувача.
З точки зору ергономіки (науку про ефективну
взаємодію людини і техніки), найважливіше в додатку - створити такий
користувацький інтерфейс, який зробить роботу ефективною і продуктивною, а
також забезпечить задоволеність користувача від роботи з програмою.
Ефективність роботи означає забезпечення
точності, функціональної повноти і завершеності при виконанні виробничих
завдань на робочому місці користувача. Ефективність роботи відображає обсяг
витрачених ресурсів при виконанні завдання, як обчислювальних, так і
психофізіологічних.
Створення інтерфейсу користувача має бути
націлене на показники ефективності людино-машинної системи, які можна виміряти
кількісно і об'єктивно:
- продуктивність
праці - визначається середньою кількістю вирішених завдань, отриманими за
результатами роботи групи користувачів;
- точність роботи
(кількість помилок) - показник точності включає відсоток помилок, які зробив
користувач (число помилок набору, варіанти помилкових шляхів або відгалужень,
число неправильних звернень до даних, запитів тощо);
- функціональна
повнота визначається тим, якою мірою вироблений користувачем продукт (результат
роботи), відповідає пред'явленим до нього вимогам; відображає ступінь
використання первинних і оброблених даних, списку необхідних процедур обробки
або звітів, число пропущених технологічних операцій або етапів при виконанні
поставленої задачі для користувача. Цей показник може визначатися через
відсоток застосування окремих функцій в роботі;
- завершеність
роботи - описує ступінь виконання виробничого завдання середнім користувачем за
певний термін або період, частку (або довжину черги) незадоволених
(необроблених) заявок, відсоток продукції, що знаходиться на проміжній стадії
готовності, а також число користувачів, які виконали завдання у фіксовані
терміни;
- простота освоєння
- визначається часом освоєння інтерфейсу, виходу на продуктивний рівень.
Задоволеність користувача можна оцінити шляхом
проведення опитування (експертної оцінки) користувачів і за ступенем стресу,
втоми, емоційного стану - по фізіологічним і психологічним показниками.
Задоволеність користувача від роботи тісно
пов'язана з комфортністю його взаємодії з додатком, і сприяє збереженню
професійних кадрів на підприємстві «Замовника» за рахунок привабливості роботи
на даному робочому місці.
Вимоги до зручності та комфортності інтерфейсу
зростають зі збільшенням складності робіт і відповідальності користувача за
кінцевий результат. Висока задоволеність від роботи досягається в разі:
- прозорої для
користувача навігації і цільової орієнтації в програмі. Головне, щоб було
зрозуміло, куди йдемо, і яку операцію програма після цього кроку зробить;
- ясності і
чіткості розуміння користувачем текстів та значення ікон. У програмі повинні
бути ті слова і графічні образи, які користувач знає чи зобов'язаний знати за
характером його роботи або займаної посади;
- швидкості
навчання при роботі з програмою, для чого необхідно використовувати переважно
стандартні елементи взаємодії, їх традиційне або загальноприйняте розташування;
- наявності
допоміжних засобів підтримки користувача (пошукових, довідкових, нормативних),
в тому числі і для прийняття рішення у невизначеній ситуації (введення за
замовчуванням, обхід «зависання» процесів тощо).
Зручний інтерфейс допомагає користувачеві
впоратись з втомою і напругою при роботі в умовах високої відповідальності за результат[17].
.2 Голосовий інтерфейс та його практичне
застосування
Використання голосового інтерфейсу є найбільш
природною і зручною формою взаємодії людини з технічною системою. В даний час
вже існує ряд систем, які використовують голосовий інтерфейс, забезпечуючи тим
самим більш ефективне рішення деяких задач. Перш ніж перейти до розгляду
прикладів практичного використання голосового інтерфейсу, порівняємо його з
найбільш поширеними в даний час засобами взаємодії користувача з комп'ютером:
клавіатурою і дисплеєм. Слід зазначити принаймні три принципові відмінності
голосового інтерфейсу:
) явний недолік клавіатури і дисплея полягає в
тому, що для спілкування з комп'ютером людині потрібно пройти спеціальну
підготовку. У той же час мова - це природний інтерфейс для будь-якої, навіть
непідготовленої людини. Мова знижує в різкій ступені психологічну відстань між
людиною і комп'ютером. Якщо з'являється голосовий інтерфейс, то коло
користувачів комп'ютером може стати необмеженим;
) голос сам по собі ніяк механічно не прив'язаний
до комп'ютера і може бути пов'язаний з ним через системи комунікації,
наприклад, телефон. Голосовий інтерфейс скорочує фізичну відстань між людиною і
комп'ютером. Це додатково розширює коло потенційних користувачів комп'ютерів і
робить голосовий інтерфейс ідеальним засобом для створення систем масового
інформаційного обслуговування;
) можна спілкуватися з комп'ютером в повній
темряві, з закритими очима, в умовах зайнятості рук важелями управління, з
зав'язаними руками і в іншій екстремальній обстановці. Ця властивість дає
оперативність і мобільність спілкування, звільнення рук і розвантаження
зорового каналу сприйняття при отриманні інформації. Це винятково важливо,
наприклад, для диспетчера великий енергетичної системи або пілота літака і
водія автомобіля. Крім того, комп'ютерні системи стають більш доступними людям
з порушенням зору. В даний час голосові комп'ютерні технології вже досить
широко поширені і розвиваються в декількох напрямках[2].
Це, однак, не означає, що голосовий спосіб людино-машинного
спілкування цілком замінить традиційні способи введення-виведення інформації.
Поряд з іншими засобами він активно сприяє подальшій інтелектуалізації
людино-машинних систем. Результати, отримані в галузі розробки голосового
інтерфейсу, стають доступні широким верстам населення. В даний час нам уже
відомі приклади широкого використання голосового інтерфейсу, наприклад, в
області телефонії, побутової техніки та ін [8, 210 c.].
Голосовий інтерфейс розглядається, як додатковий,
що розширює можливості існуючих інтерфейсів. Таким чином, разом повинні будуть
співіснувати миша, клавіатура і мікрофон. Вони повинні працювати в одній
зв'язці, не створюючи перешкод один одному (біда багатьох програм для
управління комп'ютером по голосу). Людина повинна мати можливість вибору
найбільш зручного інтерфейсу в кожен конкретний момент часу. Наприклад, почати
команду, використовуючи мишу, продовжити голосовим вводом і підтвердити
натисканням кнопки на клавіатурі. У сучасних операційних системах вже
закладалися можливості використання голосового інтерфейсу (нові ОС фірми
Microsoft) [8, C. 209].
Практичне використання голосового інтерфейсу:
- телекомунікації
Голосові
технології надають можливість цілодобового доступу для користувачів call
центрів до послуг:) отримання довідкової інформації;) доступу до
персональних даних та управління сервісами;) замовлення по телефону продуктів
або послуг;) автоматичної переадресації дзвінка на потрібного абонента.
- мобільні пристрої
Дозволяє
організувати можливість голосового управління будь-якими додатками мобільної
платформи, а також реалізувати можливість введення числової і / або текстової
інформації за допомогою голосу.
- побутові пристрої
За
допомогою інтелектуального пульта дистанційного можна реалізувати голосове
управління будь-якими побутовими та промисловими пристроями.
Наприклад,
при управлінні телевізором, це:) голосове керування перемиканням каналів;) голосове
управління настройками та програмування телевізора і засобів відтворення
відео;) голосове формування запитів для інтелектуального пошуку необхідних
відеосюжетів.
Голосові
технології можуть знайти найширше застосування в інтелектуальних телевізійних
системах нового покоління: за рахунок їх використання значно розшириться пакет
сервісів для споживачів ТВ послуг. Наприклад, інтелектуальна приставка з
можливостями індексації відеофрагментів дозволить:) Записувати і
оцифровувати телевізійні програми;) Індексувати вироблені записи по категоріям
(фільми, спортивні програми, новинні сюжети);) Знаходити ключові фрази
і вирази в аудіопотоках (для формування вибірки новин з цікавої теми);) Знаходити
музичні фрагменти, що відповідають певним критеріям пошуку;) Знаходити
конкретних особистостей по голосовим фрагментам (для формування вибірки
програм, в яких брали участь дані люди);) Очищати записи від небажаних
фрагментів (реклами, заставки).
В свою чергу інформаційні сервери ТВ мереж
дозволять організувати сервіси:
a) «Відео
за заявкою» (відео на замовлення), коли абонент має можливість дивитися
будь-яку передачу або картину в зручний для себе час.) Вибір сюжетів для
перегляду, наприклад, у випуску новин можна подивитися звичайний сюжет або
більш докладну розповідь, повторити спортивний блок ще раз;) Індексація та
інтелектуальний пошук у базі даних відео фрагментів;) Інтерактивні розваги,
що передбачають участь глядачів у вікторинах, конкурсах, іграх, спортивних
змаганнях і т.д.;) Різноманітні сервісно-комерційні служби для абонентів,
наприклад, можливість робити покупки не виходячи з дому.
- автомобілі
Аудіосистеми
не тільки контролю, а й управління вже застосовуються в деяких марках
автомобілів. Наприклад, водій називає вулицю, до якої йому потрібно дістатися,
і система надає маршрут до місця призначення. Крім того, механізм розпізнавання
голосових команд дозволить водію зв'язуватися з абонентами по телефону або
отримувати доступ до своєї персоніфікованої інформації під час руху. Плюси
такої системи в тому, що вона не знижує увагу водія за кермом, адже йому не
потрібно відводити погляд від дороги і руки від керма, для того, щоб ввести
інформацію з клавіатури. Використання звичайного (тактильного) способу набору
за кермом не тільки незручно, але й небезпечно. Головною проблемою в такій
ситуації є високий рівень шуму (шум вулиці, шум двигуна та ін.). Проте і ця
проблема вже має варіанти вирішення.
- освіта
- комп'ютерні системи
В
інформаційно-довідкових терміналах для управління меню використовують голосові
команди (для введення цифр, окремих слів і фраз).
Системи
голосової технології можуть використовуватися в системі інтеллектуальної
автоматизації «розумний дім» для:) голосового управління сервером
(технологія розпізнавання мови);) системи контролю доступу (технологія
ідентифікації голосу диктора по пральний фразі);) автоінформатор
(система синтезу мови).
- інтернет
В
сервісах голосових порталів і пошукових системах реалізована можливість
використання «природного інтерфейсу» спілкування користувачів при роботі з
додатками. Також система розпізнавання мови використовується для голосової
навігації і голосового управління додатками.
- системи доступу
Системи
ідентифікації диктора по голосовому фрагменту знаходять широке застосування у
складі комплексних систем обмеження доступу.
- аерокосмос
Передача
розмов екіпажу в реальному часі у вигляді текстової інформації в «чорний ящик»,
або «на землю» в диспетчерські служби.
Система
ідентифікації дикторів по голосовому фрагменту може застосовуватись в складі
комплексних систем безпеки для ідентифікації співробітників, що мають доступ в
закриті зони аеропорту, а також в системах забезпечення безпеки доступу в
кабіни пілотів.
- військовий комплекс
Голосове
управління дасть можливість зупинки бойової техніки при її пошкодженні або
пораненні оператора.
Системи
ідентифікації дикторів по звуковим фрагментам може застосовуватись для ідентифікації
персоналу, що має доступ в закриті зони охороняємого об'єкта.
- ігри
Системи
розпізнавання мови можуть використовуватися в абсолютно будь-яких комп'ютерних
іграх і додатках, будь-яких жанрів і напрямів: від невеликих логічних ігор до
онлайнових рольових проектів[27].
.3
Системи розпізнавання мови
Розпізнавання
мови - технологія, що дозволяє використовувати природний для людини голосовий
інтерфейс для взаємодії з електронною технікою [6, С. 112].
Системи
розпізнавання мови - це системи, що аналізують акустичний сигнал алгоритмами,
заснованими на різноманітних теоріях, що припускають, які характеристики
мовного сигналу створюють відчуття звуків даної мови, і математичних методах, з
тією чи іншою точністю, що виділяють значущі параметри акустичного сигналу і
перетворюють його в різній повноті в необхідну форму.
Практично
всі відомі методи розпізнавання мови мають ряд основних загальних властивостей:
) Для
розпізнавання використовується метод порівняння з еталонами;
) Сигнал
може бути представлений або у вигляді безперервної функції часу, або у вигляді
слова в деякому кінцевому алфавіті;
) Для
скорочення обсягу обчислень використовуються методи динамічного програмування.
Динамічне програмування (ДП) - метод вирішення завдань шляхом складання
послідовності з підзадач таким чином, що:
) Перший
елемент послідовності (можливо кілька елементів) має тривіальне рішення
) Останній
елемент цієї послідовності - це вихідна задача
) Кожна
задача цієї послідовності може бути вирішена з використанням рішення підзадач з
меншими номерами.
Методи
розпізнавання мови можна розділити на дві великі групи: непараметричні - з
використанням непараметричних мір близькості до еталонів (до них можна віднести
методи на основі формальних граматик і методи на основі метрик на безлічі
мовних сигналів) - і параметричні (ймовірнісні - на основі методу прихованих
моделей Маркова, нейромережеві).
Непараметричні
методи, засновані на заходи близькості на безлічі голосових сигналів. Метод
Вінцюка [3], заснований на методі динамічного програмування (Беллман Р. [1],
Ітакура Ф. [11] та іншими) дозволив скоротити час обчислення значень функції
близькості до еталонних сигналів, з експоненціального (від довжини сигналу) до
квадратичного. В силу того, що основною специфікою методу є нелінійне спотворення
тимчасової осі однієї з порівнюваних функцій, метод отримав назву «динамічна
деформації часу». До достоїнств відносяться простота його реалізації та
навчання. До недоліків можна віднести складність обчислення міри близькості,
яка пропорційна квадрату довжини сигналу, і великий обсяг пам'яті, необхідний
для зберігання еталонів команд - пропорційний довжині сигналу та кількістю
команд в словнику.
Параметричні
- методи, застосовувані до задачі розпізнавання мови в даний час, були вперше
запропоновані низкою американських дослідників (Бейкер [9] і Джелінек [4]) в
1970-ті роки минулого століття. В них застосовується теорія прихованих моделей
Маркова - двічі стохастичні процеси та ланцюга Маркова по переходах між станами
і безлічі стаціонарних процесів в кожному стані ланцюга.
Класифікацію
систем розпізнавання мови слід почати з визначення основних аспектів цих
систем. До таких аспектів можна віднести:
Розмір
словника. Чим більший розмір словника, з яким працює система розпізнавання
мови, тим більше частота появи помилок при розпізнаванні слів. Для порівняння,
словник, складається тільки з цифр, може бути розпізнаний практично
безпомилково, тоді як частота появи помилок при розпізнаванні словника в сто
тисяч слів може досягати 45%, але потрібно також враховувати унікальність слів
у словнику. Якщо слова дуже схожі один на одного, то похибка розпізнавання
збільшується.
Дикторозалежність.
Існують дикторозалежні і дикторонезалежні системи розпізнавання мови.
Дикторозалежна система призначена для роботи тільки з одним користувачем
(людиною, яка навчала цю систему), в той час як дикторонезалежна система
призначена для роботи з будь-яким диктором. Але створення по-справжньому
дикторонезалежної системи - дуже трудомістке завдання. На поточному етапі
розвитку систем розпізнавання мови, частота появи помилок в дикторонезалежних
системах в 3-5 разів більше, ніж в дикторозалежних.
Злита або
роздільна мова. Мову диктора умовно можна розділити на злиту і роздільну.
Роздільна - це мова, в якій слова відокремлюються одне від одного спеціальною
паузою (проміжком тиші). Злита мова - це природно вимовлені речення.
Розпізнавання злитого мовлення складніше, так як у вимовлених слів немає чітких
границь.
Структурні
одиниці. В якості структурних одиниць можуть виступати фрази, слова, фонеми,
дифони, алофони. Системи, які розпізнають мову, використовуючи цілі слова або
фрази, називаються системами розпізнавання мови за шаблоном. Вони, як правило,
дикторозалежні і їх створення менш трудомістке, ніж створення систем, які
розпізнають мову на базі виділення лексичних елементів. В таких системах
структурними одиницями мови є лексичні елементи (фонеми, дифони, Алофон).
Принцип
виділення структурних одиниць. У сучасних системах розпізнавання мови
використовується кілька підходів для виділення з потоку мови структурних
одиниць. Найпоширеніший підхід заснований на перетворенні Фур'є, яке переводить
вихідний сигнал з амплітудно-часового простору в частотно-часове, а тимчасову
область визначає лінійне передбачення промови, яке описує голосовий сигнал за
допомогою моделі авторегресії. Однак, аналіз Фур'є має цілу низку недоліків, в
результаті яких відбувається втрата інформації про тимчасові характеристики
сигналів, які обробляються. У зв'язку з цим, для задачі виділення структурних
одиниць мовлення виправдано використання вейвлет-аналізу. Фур'є-аналіз
припускає розкладання вихідної періодичної функції в ряд, в результаті чого
початкова функція може бути представлена в вигляді суперпозиції
синусоїдальних хвиль різної частоти. В свою чергу вейвлет-аналіз розкладає
вхідний сигнал в базис функцій, що характеризують як частоту, так і час. Тому,
за допомогою вейвлетів, можна аналізувати властивості сигналу одночасно і в
фізичному просторі, і в частотному. Також, на відміну від традиційного
перетворення Фур'є, вейвлет-перетворення визначено неоднозначно: кожному
вейвлету відповідає своє перетворення. Це дозволяє ретельніше підібрати
вейвлет-функцію з хорошими властивостями частотно-часової локалізації. Крім
вейвлет- і Фур'є-аналізу в системах розпізнавання мови використовується
кепстральних аналіз, але створення таких систем дуже трудомістке і вимагає дуже
високої кваліфікації розробника.
Алгоритми
розпізнавання. Після того як голосовий сигнал розбивається на частини,
відбувається ймовірнісна оцінка приналежності цих частин до того чи іншого
розпізнаваного елементу словника. Це здійснюється за допомогою одного з
алгоритмів розпізнавання. Найбільшого поширення набули системи розпізнавання
мови на базі прихованих Марковських моделей (ПММ). ПММ називається модель, яка
складається з N станів, в кожному з яких деяка система може приймати одне з M
значень якого-небудь параметра. Ймовірності переходів між станами задається
матрицею ймовірностей
= {aij},
де aij -
ймовірність переходу з i-го в j-й стан. Ймовірності випадання кожного з M
значень параметра в кожному з N станів задається вектором B = {bj (k)}, де bj
(k) - ймовірність випадання k-го значення параметра в j-му стані. Ймовірність
настання початкового стану задається вектором р = {рi}, де рi - ймовірність
того, що в початковий момент система опиниться в i-му стані. Таким чином,
прихованою марковською моделлю називається трійка л = {A, B, р}.
Використання
прихованих марковських моделей для розпізнавання мови засноване на двох
наближеннях: мова може бути розбита на фрагменти, відповідати станам в ПММ,
параметри мовлення в межах кожного фрагмента вважаються постійними; ймовірність
кожного фрагмента залежить тільки від поточного стану системи і не залежить від
попередніх станів. Крім ПММ, в системах розпізнавання використовуються
динамічне програмування та нейронні мережі.
Призначення
системи визначає необхідний рівень абстракції, на якому відбуватиметься
розпізнавання мови. Наприклад, в системі голосового набору
мобільного
телефону буде здійснюватися розпізнавання за шаблоном (словом або фразою). Такі
системи називаються командними. На відміну від них, система диктування вимагає
більш точного розпізнавання (розпізнавання на базі виділення лексичних
елементів) і при інтерпретації оголошених фраз, вона буде покладатися не тільки
на те, що було вимовлено в поточний момент, але і на те, як співвідноситься з
тим, що було вимовлено до цього. Також, в таку систему повинен бути вбудований
набір граматичних правил. Чим суворіші ці правила, тим простіше реалізовувати
систему розпізнавання, і тим обмеженим буде набір пропозицій, які вона зможе
розпізнати[17].
В
системах розпізнавання завчасно формується база фонем мови, що містить шаблони
базового набору слів при «усередненій» промові, тобто незалежній від диктора.
Мова переводиться в фонемний опис і надходить у файл опису фонем, звідки цей
опис надходить до блоку розпізнавання, який проводить порівняння інформації,
яка надійшла, з тією, яка зберігається в базі. Формуються розпізнані слова, які
перетворюються в текстові дані або команду.
Системи
розпізнавання мови складаються з двох частин - акустичної та лінгвістичної. У
загальному випадку можуть включати в себе фонетичну, фонологічну, морфологічну,
лексичну, синтаксичну та семантичну моделі мови.
Акустична
- відповідає за подання мовного сигналу, за його перетворення в деяку форму, в
якій вона представляє зміст мовного повідомлення у більш явному вигляді.
Лінгвістична
- інтерпретує інформацію, що отримується від акустичної моделі, і відповідає за
представлення результату розпізнавання споживачеві.
Структура
стандартної системи розпізнавання мови:
Необроблена
мова. Зазвичай, потік звукових даних, записаний з високою дискретизацією (20
КГц при запису з мікрофона або 8 КГц при запису з телефонної лінії).
Аналіз
сигналу. Вхідний сигнал повинен бути спочатку трансформований і стиснутий, для
полегшення подальшої обробки. Є різні методи для вилучення корисних параметрів
і стиснення вихідних даних в десятки разів без втрати корисної інформації.
Найбільш використовувані методи:
- аналіз Фур'є;
- лінійне передбачення мовлення;
- кепстральних аналіз.
Мовні
кадри. Результатом аналізу сигналу є послідовність мовних кадрів. Зазвичай,
кожен мовної кадр - це результат аналізу сигналу на невеликому відрізку часу
(порядку 10 мс.), що містить інформацію про цю ділянку (порядку 20
коефіцієнтів).
Акустичні
моделі. Для аналізу складу мовних кадрів потрібний набір акустичних моделей.
Розглянемо дві найбільш поширені з них.
- Шаблонна модель. В якості акустичної моделі виступає якимось чином
збережений приклад розпізнаваної структурної одиниці (слова, команди).
- Модель станів. Кожне слово моделюється як послідовність станів
вказуючи набір звуків, які можливо почути в даній ділянці слова, грунтуючись
при цьому на ймовірнісних правилах.
Акустичний
аналіз. Полягає у зіставленні різних акустичних моделей до кожного кадру мови і
видає матрицю зіставлення послідовності кадрів і безлічі акустичних моделей.
Корекція
часу. Використовується для обробки тимчасової варіативності, що виникає при
вимові слів (наприклад, «розтягування» або «з'їдання» звуків).
Послідовність
слів. В результаті роботи, система розпізнавання мови видає послідовність (або
кілька можливих послідовностей) слів, яка найбільш ймовірно відповідає вхідному
потоку мови[17].
.4
Огляд продуктів, які використовують технології голосового інтерфейсу
) Sphinx-4
- найвідоміший і найбільш працездатний з відкритих програмних продуктів для
розпізнавання мови на сьогоднішній день. Розробка ведеться в університеті
Карнегі-Меллона, поширюється на умовах ліцензії Berkley Software Distribution
(BSD) і доступний як для комерційного, так і для некомерційного використання.
Характеристики:
- Дикторонезалежність;
- Розпізнавання злитого мовлення;
- Навчання;
- Наявність версії для вбудованих систем[28].
Існують
три основних модулі структури Sphinx-4: модуль попереднього аналізу (Frontend),
декодер (Decoder) і модуль лінгвістичного аналізу (Linguist). Модуль
попереднього аналізу приймає один або більше вхідних сигналів і перетворює їх в
послідовність ознак. Модуль лінгвістичного аналізу переводить будь-який тип
стандартної моделі мови, разом з транскрипціями зі словника та інформацією про
структуру однієї або декількох акустичних моделей, в граф пошуку. Модуль пошуку
в декодері використовує ознаки з модуля попереднього аналізу та графа пошуку з
модуля лінгвістичного аналізу для виконання фактичного декодування, генеруючи
результати. В будь-який момент до або під час процесу розпізнавання, додаток
може передавати управління кожному з модулів, які можуть допомогти процесу
розпізнавання.
Кожен
елемент на являє собою модуль, який може бути легко замінений, що дозволяє
дослідникам експериментувати з різними реалізаціями модуля без необхідності
зміни інших частин системи.
Система
Sphinx-4, як і більшість систем розпізнавання мови, має велику кількість
параметрів, що настроюються, такі як розмір променя пошуку для поліпшення
продуктивності системи. Для настройки таких параметрів в Sphinx-4
використовується модуль управління конфігурацією. На відміну від інших систем
управління конфігурацією в Sphinx-4 дозволяє динамічно завантажувати і
налаштовувати модулі під час виконання, що робить систему гнучкою і легко
підключається. Наприклад, Sphinx-4, як правило, налаштований на попередній
аналіз, який виділяє Мел-кепстральні коефіцієнти (MFCC). Використовуючи
управління конфігурацією можна переналаштувати Sphinx-4 на побудову іншого
аналізу, який виділяє перцептуальние коефіцієнти лінійного передбачення без
необхідності змінювати вихідний код або перекомпілювати систему.
Щоб дати
розробникам додатків можливість відслідковувати статистику декодера, таку як
частота помилок слово, швидкість виконання, і використання пам'яті, Sphinx-4
надає ряд інструментів. Як і в решті частини системи, інструменти є
налаштованим, що дозволяє користувачам виконувати широкий спектр системного
аналізу. Крім того, інструменти також забезпечують інтерактивну середу
виконання, що дозволяє користувачам змінювати параметри системи під час її
роботи, роблячи доступним швидке експериментування з різними параметрами
налаштування.також підтримує утиліти, які обробляють результати розпізнавання
на рівні додатків. Наприклад, ці утиліти отримують результати решітки,
коефіцієнти впевненості, і ступінь розуміння природної мови[32].
) Google
Voice Search (компанія «Google»). Раніше пошук застосовувався виключно в
мобільних пристроях. З недавнього часу голосовий пошук від Google вбудований в
браузер Google Chrome, що дозволяє використовувати цей сервіс на різних
платформах.
Характеристики:
- Можливість вбудовувати розпізнавання мови на веб-ресурси;
- Голосові команди, словосполучення;
- Для роботи необхідно постійне підключення до мережі Інтернет.
) Горинич
ПРОФ 3.0 - перша російськомовна система автоматичного розпізнавання мови для
диктування і голосового управління комп'ютером з підтримкою російської мови для
операційної системи Windows XP.
Характеристики:
- Дикторозалежність;
- Мовна залежність (російська мова та англійська мова);
- Точність розпізнавання залежить від ядра системи американської
програми «Дракон диктат»;
- Надає засоби голосового управління окремими функціями операційної
системи, текстових редакторів і прикладних програм;
- Вимагає навчання.
) VoiceNavigator
(компанія «Центр мовних технологій») високотехнологічне рішення для
контакт-центрів, призначене для побудови систем голосового самообслуговування.
VoiceNavigator дозволяє автоматично обробляти виклики за допомогою технологій
синтезу і розпізнавання мови. VoiceNavigator - це веб-навігація по веб-ресурсам
за допомогою голосу. Розробка дозволяє управляти навігацією сайту за допомогою
мовних команд.
Характеристики:
- Дикторонезалежність;
- Стійкість до оточуючих шумів і перешкод в телефонному каналі;
- Розпізнавання російської мови працює з надійністю 97% (словник 100
слів).
) Speereo
розпізнавання мови (російська ІТ компанія «Speereo Software»). Програмний
продукт для розробки додатків в індустрії мобільних пристроїв і персональних
комп'ютерів. Розпізнавання мови відбувається безпосередньо на пристрої, а не на
сервері, що є ключовою перевагою, на думку розробників.
Характеристики:
- Розпізнавання російської мови працює з надійністю близько 95%;
- Дикторонезалежність;
- Словниковий запас близько 150 тис. слів;
- Одночасна підтримка декількох мов;
- Компактний розмір двигуна.
) Sakrament
ASR Engine (розробка компанії «Сакрамент») - технологія розпізнавання мови
використовується при створенні засобів голосового управління - програм,
керуючих діями комп'ютера або іншого електронного пристрою за допомогою
голосових команд, а також при організації телефонних, довідкових та
інформаційних служб.
Характеристики:
- Дикторонезалежність;
- Мовна незалежність;
- Точність розпізнавання досягає 95-98%;
- Розпізнавання мови у вигляді виразів і невеликих пропозицій;
- Немає можливості навчання.
) Dragon
NaturallySpeaking (компанія «Nuance») - світовий лідер у програмному
забезпеченні по розпізнаванню людської мови. Можливість створювати нові
документи, відправляти електронну пошту, управляти популярними браузерами та
різноманітними додатками за допомогою голосових команд.
Характеристики:
- Відсутня підтримка російської мови;
- Точність розпізнавання до 99%.
) ViaVoice
(компанія «IBM») являє собою програмний продукт для апаратних реалізацій.
Компанія Provox технології на основі цього ядра створила систему для диктування
звітів лікарів-радіологів VoxReports.
Характеристики:
- Точність розпізнавання досягає 95-98%;
- Дикторонезалежність;
- Словник системи обмежений набором специфічних термінів.
1.5
Реалізація голосового інтерфейсу в AutoCAD
Було
проведено тестування впровадження голосового інтерфейсу в системі автоматичного
проектування фірми Autodesk AutoCAD. Ця програма оснащена розвиненим графічним
Windows інтерфейсом і програмним інтерфейсом для розробки різних додаткових
модулів, за допомогою яких можна повністю управляти процесом в система
автоматичного проектування. Знання принципів роботи проектувальника в AutoCAD
дало можливість виявити недоліки розглянутої система автоматичного
проектування, які можна поліпшити, застосувавши голосовий інтерфейс. Такі
функції, як включення прив'язок, виклик і робота з видами, робота з шарами,
відміна команд, не мають прямого відношення до проектування, і при їх викликах
традиційними методами відбувається уповільнення процесу проектування, так як
порушується семантичний зв'язок дій людини через певний інтерфейс управління
комп'ютером і оптимальним є перенесення виклику цих дій на інший інформаційний
канал. Дуже зручною буде організація відповідності між звуковим і візуальним
символом (іконки з панелі інструментів). А найголовніше ці поліпшення можуть
бути потрібні людям, які працюють з цією системою автоматичного проектування.
Чому «можуть бути»? Та тому що голосовий інтерфейс розглядається як додатковий,
і людина буде вибирати, чим користуватися.
В AutoCAD
існує рядок введення команд. Він є центральною ланкою в схемі управління
системи автоматичного проектування. Через нього проходять на обробку усі
команди фахівців, що надходять в AutoCAD, незалежно від того були вони введені
з клавіатури, миші або через діалогове вікно. У цьому рядку також зберігається
поточний стан системи (поточна команда). Якщо голосовий інтерфейс буде
використовувати для спілкування з системою автоматичного проектування цей
рядок, то він не буде створювати перешкоди в роботі іншим інтерфейсам. Таким
чином, ми отримали багатомодульний інтерфейс. За попередніми результатами
досліджень запропонована концепція використання голосового інтерфейсу в системі
автоматичного проектування AutoCAD повністю себе виправдала, ведуться роботи з
подальшого вдосконалення програмного забезпечення та принципів застосування
голосового інтерфейсу [8, C. 209].
2. Методика побудови та оцінювання ефективності
голосового інтерфейсу
.1 Попередній аналіз сигналу
Голосовий сигнал, що надійшов з мікрофона,
оцифровується і являє собою набір безлічі значень, число яких, як правило,
коливається від 8000 до 22050 в секунду в залежності від частоти дискретизації
сигналу. Отриманий масив даних із-за високої розмірності не придатний для
подальшого використання в незмінному вигляді, і тому необхідно провести
параметричне представлення цих даних. Параметричне перетворення повинне
задовольняти не тільки вимогам щодо скорочення розмірності даних, а й зберігати
при цьому істотну для розпізнавання інформацію про мови. Крім того, обчислювані
на основі аудіоданих параметри повинні бути максимально інваріантні до
особливостей вимови дикторів, гучності мови і наявності шумів. Це дозволить
подальшим етапам аналізу промови працювати з даними, які є компактними, що
містять ключові особливості мови і властивості яких залишаються незмінними при
зміні диктора або акустичної обстановки.
Ключовим у багатьох системах розпізнавання мови є
підхід до обчислення параметрів голосового сигналу, заснований на кепстральному
аналізі. Кепстральний аналіз можна розглядати як спосіб розділення вихідної
акустичної хвилі, утвореної в голосовій щілині, і дії голосового тракту, який
за своїми властивостями являє собою фільтр. Найбільш корисною є інформація саме
про фільтр, тобто про форму голосового тракту в даний момент. Передбачається,
що за цією формою можна визначити те, який звук був вимовлений. Отже, саме цю
частину даних і слід використовувати в якості складових вектора ознак.
Мел-частотні кепстральні коефіцієнти MFCC
(Mel-frequency cepstral coefficients) - це своєрідне уявлення енергії спектра
сигналу. Плюси його використання полягають у наступному:
) використовується спектр сигналу (тобто
розкладання по базису ортогональних синусоїдальних функцій), що дозволяє
враховувати хвильову «природу» сигналу при подальшому аналізі;
2) спектр проектується на спеціальну mel-шкалу
<#"792255.files/image001.gif">
Рисунок 2.1 - Процес обчислення Мел-частотних
кепстральних коефіцієнтів
В якості першого кроку обчислення кепстра
розглядається процедура збільшення енергії в високочастотних сегментах.
Необхідність цього кроку продиктована тим, що вокалізовані сегменти, такі як,
наприклад, голосні, мають меншу частоту і містять більше енергії, ніж
високочастотні сегменти. Така нерівномірність у розподілі енергії по різним
частотам пояснюється будовою мовного апарату людини. Подолання цього
«Спектрального нахилу» (spectral tilt) за допомогою збільшення енергії не
вокалізірованних сегментів дозволяє збільшити їх вагу при розпізнаванні.
Збільшення енергії в цих сегментах досягається
шляхом застосування фільтра, який відсікає постійну складову сигналу:
y[n] = x[n]−бx [n −1]
де б ∈ [0,9; 1],
вектори x і y представляють значення сигналу до і після
застосування фільтра.
Наступним етапом обчислення є розбиття сигналу на
фрагменти довжиною N відліків і з кроком K відліків. В якості віконної
функції використовується вікна Хеммінга. Результатом такого перетворення на
i-ой ітерації буде добуток значень сигналу y [n] і значень функції вікна
Хемминга w[n]:
y [n] = y [n] w [n],
До отриманих фрагментів сигналу застосовується
швидке перетворення Фур'є:
Далі формується набір фільтрів, які
перекриваються, розташованих згідно Mel-шкалі, перетворення частот який
описується наступним рівнянням:
Відліки, включені в кожен фільтр, перераховуються
з урахуванням трикутного вікна, визначається енергія на виході кожного фільтра S(n)
і робиться логарифмуванння виходу кожного фільтра.
Зрештою, описані вище перетворення можна записати
в наступному вигляді:
Поряд з коефіцієнтами даного вектора прийнято
використовувати значення «Дельт», що відбивають швидкість і прискорення, з
якими змінюються значення даних векторів MFCC при переході від одного сегмента
промови до іншого [34, 936 c.].
.2 Приховані марківські моделі
В якості математичного апарату, який
застосовується для розпізнавання голосових команд, пропонується використати
приховані марківскі моделі (ПММ) які являють собою універсальний інструмент
опису стохастичних процесів. Для роботи з ними не існує точних математичних
моделей, а їх властивості міняються з плином часу відповідно до деяких
статистичних законів [24].
Достоїнствами методу прихованих моделей Маркова
є:
- швидкий спосіб
обчислення значень функцій відстані (ймовірності);
- істотно менший
обсяг пам'яті, в порівнянні з методом «динамічної деформації часу», необхідний
для зберігання еталонів команд.
Основними недоліками:
- необхідність
використання великих фонетично збалансованих мовних корпусів для навчання
параметрів.
При практичній роботі з прихованими марківськими
моделями доводиться вирішувати ряд ключових завдань:
) вибір системи параметричних векторів,
наприклад, для розпізнавання мовлення використовуються кепстральні коефіцієнти
(MFCC), коефіцієнти лінійного передбачення (LPC) і ряд інших;
) розробка алгоритму нормалізації параметричних
векторів;
) вибір кількості станів моделі N і числа
компонент гаусом суміші M;
) первісна сегментація навчальних векторів для
знаходження наближених значень математичних очікувань гаусівських сумішей на
початковому кроці навчання і т.д.
Необхідно зауважити, що немає універсального
алгоритму визначення вищеперелічених параметрів і в кожному конкретному
випадку, в залежності від розв'язуваної задачі, може знадобитися проведеня
величезної кількості експериментів, перш ніж будуть досягнуті необхідні
результати точності розпізнавання [26].
В основі прихованої марківської моделі лежить
кінцевий автомат, що складається з N-станів, які називаються
прихованими. Переходи між станами в кожен дискретний момент часу t не
являються детермінованими, а відбуваються у відповідності з ймовірнісним
законом і описуються матрицею ймовірностей переходів.
Схематичне зображення діаграми переходів між
станами ПММ приведено на рис. 2.2.
Рисунок 2.2 - Діаграма переходів між станами
прихованої марківської моделі
Знаходження моделі в деякому стані i
відповідність певній стаціонарності сигналу спостерігається на обмеженому
часовому інтервалі. З'являється проста фізична інтерпретація ПММ: розглядається
процес, який іноді стрибкоподібно змінює свої характеристики.
При здійсненні чергового переходу в стан i
в момент часу t відбувається генерація вихідного вектора xt,
який називають параметричним вектором, відповідно до багатомірної функції
розподілу ймовірностей fj (x).
Результатом роботи прихованої марківської моделі
є послідовність векторів (спостережень) {x1, x2,…, xT}
довжиною T. Перевагою ПММ є можливість обробки послідовностей і сигналів
різної довжини, що утруднено при роботі з штучними нейронними мережами,
зокрема.
Функція щільності ймовірностей fj (x)
для стану j описується, як правило, виваженою гаусівською сумішшю:
де M - кількість компонент суміші;
wi - вага компонента
суміші;
pi (x) - нормальний розподіл
для D-мірного випадку. Функція pi (x) описується наступним вираженням:
де D - розмірність вектора;
мi - вектор математичного
очікування;
уi - матриця коваріації
[24].
Робота з прихованими марковскими моделями, як і з
будь-якою іншою адаптивною експертною системою, здійснюється в два етапи:
) навчання - визначення параметрів моделі -
алгоритм Баума-Велч
) визначення - яка ймовірність того, що
спостережувана послідовність векторів {x1, x2,…, xT} була згенерована даною
моделлю - алгоритм максимуму правдоподібності (Вітербі). Далі наводиться
короткий опис вищеперелічених чисельних алгоритмів.
Навчання прихованої марківської моделі. Процес
навчання прихованої марківської моделі полягає у визначенні за допомогою набору
навчаємих зразків наступних параметрів:
матриці ймовірностей переходів між станами;
параметрів гаусівських сумішей (математичне
очікування, матриця коваріації і ваги) для кожного стану[26].
Для вирішення цих задач спільно застосовуються
два ітераційних алгоритми: forward-backward і Baum-Welch re-estemation.
В алгоритмі forward-backward вводяться дві
функції: прямого поширення ймовірності aj (t) і зворотнього вj
(t). Значення величини aj (t) являє собою ймовірність
спостереження послідовності векторів {x1, x2,…, xt}
і знаходження ПММ в стані j в момент часу t:
Величини aj (t) і aj
(t -1) пов'язані ітераційним виразом:
де Aij - ймовірність переходу
зі стану i в стані j;
fj (xt) - ймовірність
спостереження вектора xt в стані j.
Зворотня функція вj (t) являє
собою ймовірність знаходження ПММ в стані j в момент часу t з подальшим спостереженням
послідовності {x t+1, xt +2,…, xT}:
Величини вj (t) і вj
(t + 1) пов'язані аналогічним чином:
Величини aj (t) і вj
(t) дозволяють визначити ймовірність знаходження ПММ в стані j в момент
часу t при спостереженні послідовності {x1, x2,…, xt}:
де P = aN (T) - загальна
ймовірність спостереження послідовності {x1, x2,…, xt}
даної ПММ.
Алгоритм Баума-Велч на черговому кроці навчання
дозволяє, використовуючи вищенаведені вирази, зробити переоцінку параметрів
моделі[24].
Нехай є R навчальних зразків, тоді
ймовірність переходу зі стану i в стан j визначається як:
Для кожного стану j і для кожної
компоненти гаусовської суміші m математичне сподівання, матриця
коваріації і вага визначаються наступними виразами:
Для якісного навчання прихованої марківської
моделі потрібно множину зразків сигналу: від декількох десятків до декількох
сотень екземплярів. Також необхідно дотримуватися умова лінійної незалежності
навчальних зразків, в іншому випадку, в процесі навчання відбувається
виродження матриці коваріації, наслідком чого є повна непрацездатність моделі
[26].
У процесі навчання може виникнути ситуація, коли
значення ймовірностей в знаменнику вищенаведених виразів матимуть дуже маленькі
значення (близькі до нуля), що призведе до переповнення регістрів процесора і
виключно ситуацій. Тому в практичній роботі застосовується логарифмічна
арифметика (використовуються логарифми ймовірностей, а не їх безпосередні
значення) [24].
2.3 Алгоритм Вітербі
Алгоритм Вітербі - алгоритм
<#"792255.files/image016.gif">
Рисунок 3.1 - Зовнішній вигляд програми
«Голосовий калькулятор»
В процесі роботи програми «Голосовий калькулятор»
будуть одержані наступні результати:
. за допомогою голосових команд та
клавіатури вводяться дані;
. команда «Plus» або «Minus» проводить
розрахунки та на екран виводиться результат.
Код програми представлений у додатку К.
Архітектуру та функціональну структуру програми
«Голосовий калькулятор» зображено на рис. 3.2 та рис. 3.3.
Рисунок 3.2 - Архітектура програми «Голосовий
калькулятор»
Рисунок 3.3 - Функціональна структура програми
«Голосовий калькулятор»
2) Програма «Голосовий калькулятор - 2»
включає в себе, окрім стандартних методів вводу та редагування інформації, 9
голосових команд: one, two, one back, two back, plus, minus, clear, one clear,
two clear. Зовнішній вигляд програми зображено на рис. 3.4.
Рисунок 3.4 - Зовнішній вигляд програми
«Голосовий калькулятор - 2»
В процесі роботи програми «Голосовий калькулятор»
будуть одержані наступні результати:
. за допомогою голосових команд та
клавіатури вводяться дані;
. команда «Plus» або «Minus» проводить
розрахунки та на екран виводиться результат.
Код програми представлений у додатку Л.
Архітектуру та функціональну структуру програми
«Голосовий калькулятор - 2» зображено на рис. 3.5 та рис. 3.6.
Рисунок 3.5 - Архітектура програми «Голосовий
калькулятор - 2»
) Програма «Голосовий блокнот» включає в себе,
окрім стандартних методів редагування інформації, 5 голосових команд: select,
copy, past, cut, time. Ці голосові команди є службовими і призначені для більш
ефективної роботи з програмою. Зовнішній вигляд програми зображено на рис. 3.6.
Рисунок 3.6 - Зовнішній вигляд програми
«Голосовий блокнот»
В процесі роботи програми «Голосовий блокнот»,
використовуючи голосові команди, клавіатуру та мишку, будуть одержані наступні
результати:
. виділяється текст;
. копіюється або вирізається текст;
. вставляється текст.
Код програми представлений у додатку М.
) Програма «Голосовий знімок екрану»
включає в себе, окрім стандартних методів управління, 2 голосові команди: save,
clip. Зовнішній вигляд програми зображено на рис. 3.7.
Рисунок 3.7 - Зовнішній вигляд програми
«Голосовий знімок екрану»
В процесі роботи програми «Голосовий знімок
екрану», використовуючи голосові команди та мишку, будуть одержані наступні
результати:
. зроблено знімок екрану;
. зберігання зображення.
Код програми представлений у додатку Н.
Висновки і перспективи подальших досліджень
Робота присвячена актуальній темі дослідження
ефективності застосування марківських прихованих моделей для побудови голосових
компонент інтерфейсу користувача з програмними додатками.
Ефективність розраховано з використанням
модифікованої методики GOMS на прикладах 4 програмних додатків, розроблених для
данної дипломної роботи, в яких для розпізнавання голосових команд
використовуються приховані марківські моделі.
В результаті досліджень були отримані наступні
наукові результати:
) виявлено, що межі ефективності
інтерфейсу користувача з програмними додатками залежать від засобів взаємодії
користувача з програмою. У дослідженні розглядались наступні засоби:
- клавіатура;
- маніпулятор
«миша»;
- голосові команди;
- змішані варіанти
вищеперерахованих засобів.
) визначено, що використання голосової
складової з кількістю команд більше ніж 9 не підвищує ефективність використання
інтерфейсу користувача з операційною системою;
) використання голосової складової з
кількістю команд менше за 9 підвищує ефективність використання традиційного
інтерфейсу на 4%;
) приховані марківські моделі можуть бути
використані для побудови голосової складової інтерфейсу людини з програмними
додатками.
В подальших дослідженнях на обрану тему важливо
було б зробити порівняльний аналіз ефективності ПММ для побудови голосового
інтерфейсу користувача з програмними додатками.
Перелік посилань
1) Беллман Р.Э. Динамическое
программирование и уравнения в частных производных / Р. Беллман, Э. Энджел. -
М.: ИЛ, 1960. - 400 с.
) Бідюк П.І. Проектування комп’ютерних
інформаційних систем: Навчальний посібник / П.І. Бідюк, Л.О. Коршевнюк. - К.:
НТУУ «КПІ», 2011. - 340 с.
) Винцюк Т.К. Анализ, распознавание и
интерпретация речевых сигналов / Т.К. Винцюк. - К.: Наукова думка, 1987. - 264
с.
4) Джелинек Ф. Распознавание
непрерывной речи с помощью статистических методов / Джелинек Ф. //
Статистическая теория распознования речи. - 1976. - Т. 64, №4. - С. 131-160.
5) Раскин Д. Интерфейс: новые направления
в проектировании компьютерных систем / Д. Раскин. - СПб: Символ-Плюс, 2004. -
272 с.
) Сидорова Е.В. Используем сервисы
Google: электронный кабинет преподавателя / Е.В. Сидорова. - БХВ-Петербург:
Росийская академия образования. Институт педагогического образования.
Лаборатория информатизации непрерывного педагогического образования, 2010. -
288 с.
) Федотова Е.Л. Интерактивный голосовой
интерфейс. Технологии и системы: учеб. пособие / Е.Л. Федотова. - М.: ИНФРА-М,
2009. - 352 с.
) Фролов К.Ф. Основные тенденции
развития речевого интерфейса / К.Ф. Фролов. - СПб.: СПИИРАН, 2004. - 210 с.
9) Baker J.K. Stochastic modeling for
automatic speech understanding/ J.K. Baker. - New York: Academic Press, 1975. -
P. 521-542.
) Hinton G. Deep neural networks
for acoustic modeling in speech recognition: The shared views of four research
groups. Signal Processing Magazine / [Hinton G., Deng, L., Yu D. et al.]. -
USA: IEEE, 2012. - P. 82-97.
) Itakura F. Minimum prediction
residual principle applied to speechrecognition / F. Itakura. - USA: IEEE,
1975. - P. 67-72.
12) Mohri M., Pereira F., Riley, M.
(2008). Speech recognition with weighted finite-state transducers / Mohri M.,
Pereira F., Riley M. - Springer Berlin Heidelberg: Springer Handbook of Speech
Processing, 2008. - P. 559-584.
) Reidhammer K. Revisiting
Semi-continuous Hidden Markov Models / Reidhammer K., Bocklet T., Ghoshal A.,
Povey D. - USA: Proc. IEEE Int'l Conference on Acoustics, Speech, and Signal
Processing (ICASSP), 2012. - P. 4721-4724.
) Vaseghi Saeed Advanced digital signal
processing and noise reduction / Vaseghi Saeed. - Chichester: IEEE Transactions
on Audio, 2006. - P. 1556-1572.
) Виды и типы пользовательского
интерфейса [Електронний ресурс]. - Режим доступу:
http://interfyeis.blogspot.com/2012/03/blog-post_07.html.
) Интерфейс и его виды [Електронний
ресурс]. - Режим доступу: http://fim.mdpu.org.ua.
) Класификация систем распознования
речи [Електронний ресурс]. - Режим доступу:
http://fetmag.mrsu.ru/2010-2/pdf/SpeechRecognition.pdf
) Лекции по интерфейсам пользователя.
[Електронний ресурс]. - Режим доступу:
http://www.studfiles.ru/dir/cat32/subj1173/file9485/view99700.html.
19) Методи і критерії оцінки ІК
[Електронний ресурс]. - Режим доступу:
http://www.simulation.kiev.ua/dbis/lection17.html#05.
) Основные задачи и ключевые
понятия речового интерфейса [Електронний ресурс]. - Режим доступу:
http://www.bsu.by/Cache/pdf/180353.pdf.
) Офіційний сайт Eclipse
[Електронний ресурс]. - Режим доступу: http://eclipse.org.
) Офіційний сайт Oracle
[Електронний ресурс]. - Режим доступу: http://www.oracle.com.
23) Понятие пользовательского
интерфейса. Типы пользовательских интерфейсов [Електронний ресурс]. -
Режим доступу: http://bricks.narod.ru/tp/31_pon.htm.
) Применение скрытых марковских
моделей для распознавания звуковых последовательностей [Електронний ресурс]. -
Режим доступу:
http://izvestia.asu.ru/2012/1-2/info-comp/TheNewsOfASU-2012-1-2-info-comp-03.pdf.
) Разработка и программная
реализация модульной интегрируемой системы предоставления средств голосового
интерфейса для разработки программного обеспечения [Електронний ресурс]. -
Режим доступу: http://www.hse.ru/data/2013/06/02/1285462387/MS_Ilskiy_Andrey.doc.
26) Распознавание речи от Яндекса
[Електронний ресурс]. - Режим доступу:
http://habrahabr.ru/company/yandex/blog/198556.
) Речевые технологии [Електронний
ресурс]. - Режим доступу: http://speech2b.ru/rus/applications.
) Центр речевых технологии [Електронний
ресурс]. - Режим доступу: http://www.speechpro.ru.
) Юзабилити. Кратко о фактах.
[Електронний ресурс]. - Режим доступу: http://ru.scribd.com/doc/28794871.
30) ANT [Електронний ресурс]. - Режим
доступу: http://www.bsu.by/sm.aspx? guid=87873.
) CMU Sphinx. Open Source Toolkit
For Speech Recognition [Електронний ресурс]. - Режим доступу:
http://cmusphinx.sourceforge.net.
) Sphinx-4 - гибкая система с
открытым кодом для распознавания речи [Електронний ресурс]. - Режим доступу:
http://masters.donntu.edu.ua/2013/fknt/savkova/library/translation.htm.