Системи за обработка на говор
Речта е способност да се използват думи, или техни символни знаци. Човекът (Homo sapiens) е единственото живо същество притежващо езикови функции в тесния смисъл на думата, т.е комуникативна система състояща се от изречения и/или думи структурирани чрез граматични правила. Езиковата комуникация е сравнително нова придобивка. Изправеният човек (Homo erectus) е живял преди около 500 000 години, но възрастта на езика в тесния смисъл на думата е по-малка от 100 000 години. За същите периоди човешкият мозък е еволюирал в своя обем от около 700 cm3 до 1000-2000 cm3 при Homo sapiens. Детето се ражда с обем на мозъка си около 350 cm3, но произнася първите си думи, когато обемът му достигне около 850 cm3, т.е. обемът който е имал мозъка на Homo erectus.
Общуването между човека и техническите средства, в частност РС е най- естествено и ефикасно при диалог чрез говор. РС претърпяват бурно развитие, но развитието по отношение на комуникацията е слабо. Осъществява се основно чрез клавиатура, монитор и “мишка”.
Основните направления на изследванията в областта на диалога чрез гласова комуникация са:
- синтез на говор;
- разпознаване и смислова интерпретация на говор;
- идентификация и верификация на диктор;
- предаване на говорни сигнали на разстояние по линия.
Синтезът на говорен сигнал е изкуствено пресъздаване и формиране на говор. Техниката на синтеза включва не само формиране, но и по-ефективно предаване на разстояние, натрупване и съхранение на говорна информация.
Разпознаването на говорни образи е свързано с:
изграждане на разпознаващи устройства за отделни произнесени думи;
научни изследвания за създаване на универсални разпознаващи устройства на сложни изрази от отделно или слято произнесени думи. Автоматичното разпознаване на говор е процес на обработка на говорния сигнал с цел изразяването му чрез последователност от фонеми, срички, думи или фрази.
Смисловата интерпретация /разбирането/ на говора е процес на автоматична обработка на говорния сигнал с цел изразяване на смисъла, предаван чрез този сигнал. Тя е по-висока степен на обобщаване на информацията в сравнение с разпознаването. Затова разпознаването се разглежда като проблем, подчинен на смисловата интерпретация.
Синтезирането на говор е по-лека задача в сравнение с разпознаването, защото разпознаването на произнесени думи и изречения трябва да става независимо от акцента и жаргона.
Анализ на говорния сигнал
Съгласно акустичната теория за образуването на говора, говорният сигнал е резултат на взаимодействието на резонансните кухини на гласовия тракт /устната и носова кухини, гръклян, гърло/ и квазипериодичните сигнали от гласните връзки, възникващи при образуване на гласните и звучни съгласни и турболентен шум, възникващ в местата на стесняване на гласовия тракт за беззвучни съгласни.
Въздухът се подава от белите дробове към гласните струни, които изменят дължината си за различните гласни. Така се получава трептяща система с променлива честота. Разколебаният въздух попада в резонаторните кухини на говорния тракт, чийто обем се влияе от разположението на езика, устните и зъбите. Така звукът се дооформя. За някои от звуците гласните струни са напълно отворени и те се получават само от преминаването на въздуха през резонансните кухини. За всеки човек е характерен собствен тембър, поради особеностите на черепа, кухините, езика, зъбите. Разбираемостта на звукосъчетанията се определя от силата на звука, която се регулира от белите дробове чрез промяна на налягането на въздуха.
За представяне на говорните сигнали в цифров вид се прилагат методи на цифрова обработка на сигнали, подобно на обработката на изображението. Те включват:
- дискретно представяне на говорните сигнали;
- проектиране и приложение на на алгоритми за преобразуване на получените дискретни сигнали.
Крайната цел е отделяне и използване на информационното съдържание на сигнала. В системите за синтез и разпознаване на говор обработката, дефинирана по този начин се нарича предварителна. Предварителната обработка се развива в три направления:
представяне на аналоговия сигнал в цифров вид и обратно;
цифрова реализация на аналогови методи /цифрова филтрация/;
методи, основани на цифрова обработка.
Методите за предварителна обработка се разделят на:
- методи за обработка във времевата област – компактното представяне се получава непосредствено от цифровата му стойност. Тези методи отчитат моментната енергия на сигнала, средна стойност и среден брой преходи на сигнала през нулата за кратък период от време.
методи за обработка в честотната област – параметрите се извличат въз основа на анализ на динамичната спектрограма, която характеризира изменящия се във времето спектър на сигнала.
Разработените математични методи чрез правото и обратното преобразуване на Фурие позволяват сигналът да се представи в спектралната област ако е известна времевата характеристика и обратно, ако е известна спектралната характеристика на последователни отрязъци от сигнала – да се получи времевата характеристика / да се види осцилограма и да се чуе звученето на синтизиран сигнал/.
Синтез на говор.
В системите за синтез на говор се прилагат следните три подхода:
- Пряк синтез – естествената говорна информация се записва във вид на отделни думи или фрази, след което при възпроизвеждане се пресъздава. Недостатък – необходимост от голям капацитет на паметта.
- Синтез чрез анализ – говорният сигнал се формира по пътя на анализа, като се извличат негови характерни параметри. След това сигналът се възстановява с помощта на тези параметри.
- Синтез по правила – отделните фрази и думи се разделят на срички и/или фонеми, които служат за основни структурни елементи. Към тях се добавя информация за качествените херектеристики на съответния звук. Синтезът се извършва въз основа на база данни, съдържащи срички и/или фонеми и правила за формиране на отделни думи. Този метод изисква по-малко памет, но синтезът е с по-ниско качество.
Говорните сигнали съдържат излишък от информация, основната информация може да се предаде и с по-тесен спектър. Намаляването на спектъра става с цифров филтър с изменящи се във времето параметри.
Когато трябва да се получат гласни и звучни съгласни, които се генерират от гласнините струни към входа на филтъра се включва генератора на периодични импулси с малка продължителност, което определя широк спектър и води до появяване на обертонове и добро “оцветяване” на говора. Задава се и честотата на повторение на импулсите, с което се променя височината на тоновене.
За получаване на глухи съгласни /ш, ч/ към филтъра се включва генератор на бял шум с много широк спектър, който не може да се управлява по височина.
Задават се и коефициенти за регулиране на амплитудата т.е. интензивността на звука.
Разпознаване на говор.
В общата теория се разглеждат три основни групи метода за разпознаване на образи. Те са:
евристични – предполагат разработване на процедура за разпознаване на образи, отчитаща спецификата на конкретната задача. За целта се изучават априорни данни или се изследва природата на образите.
лингвистични – описанието на образите се извършва с помощта на йерхични структури от по-прости елементи. Анализът и разпознаването става с прилагане на граматични правила.
математични – основават се на теорията на статистическите решения.
Основната задача за разпознаване на говора е свързана с наличието на пет елемента: S, X, Z, D, N.
N – загубите при реализация от разпознаващото устройство.
Всички задачи за разпознаване на говор се свеждат до минимизация на загубите N чрез подбиране на останалите елементи на петорката.
Елементите на азбуката: фонеми, срички, думи и т.н. се наричат звукотипове. С тяхна помощ се определя говорния сигнал във всеки момент от времето.
При формиране на правилото за вземане на решение е необходимо от голям брой параметри да се подберат сравнително малък брой параметри, наречени признаци. В зависимост от степента на участие на човека методите за създаване на признаци се разделят на:
- евристични;
- алгоритмични.
Основна роля при избора на признаци имат статистическите характеристики на говорния сигнал: амплитудно разпределение, спектрално разпределение, разпределение на честотите на основния тон, разпределение на говорните участъци и паузите и др. Извличането на признаците става при предварителна обработка на говорните сигнали.
За постигане целите на разпознаването се прилагат глобален и аналитичен подход.
Глобалният подход се основава на сравняване на цялата фраза с еталоните на паметта. По такъв начин са реализирани системи с ограничени характеристики и малък речник, до 200 думи. Надеждността на разпознаване е около 99% за зависими от диктора системи и 85% за независими от диктора системи.
При аналитичния подход фразата се разделя на чрез априорни познания на сегменти въз основа на фонетичните характеристики на говорния сигнал: гласни, съгласни и др. Като се разглежда множеството от получените познания се образува редица от елементи, най-често фонеми. С помощта на синтактични и семантични правила, приложени на следващите нива на анализ се достига до разпознаване на фрази или разбиране на слят говор. Подходът се основава на промяната на фонемите в зависимост от контекса. Предимство на този подход е бързо дообучаване или отпадане на необходимостта от такова и лесно приспособяване към разпознаване на слят говор с голям речник.
При анализа говорният сигнал се обработва на различни нива:
на акустично ниво се извличат следните параметри: амплитудно разпределение, спектрално разпределение, съотношение говор/пауза;
на фонетично и лексично ниво въз основа на параметрите от акустичното ниво се извличат характеристиките на говорния сигнал и се извършват сравнения с цел разпознаване на отделни думи или даване на хипотези в системите за смислова интерпретация /разбиране/ на слят говор;
на по-високите нива на анализа, синтактично, сематично и прагматично се вземат решения чрез прилагане на методите на изкуствения интелект.
Сходни статии:
- Методи на достъп до преносната среда в компютърните мрежи При мрежите по подобен начин се нуждаем от метод за контрол на достъпа до преносната среда. С различните мрежови архитектури и топологии се асоциират няколко различни метода за достъп. По-долу...