Комп'ютерні технології обробки мовних повідомлень.
Женіло В.Р.
початок - фонограма - слід - Спектр - мова - фоноскопія - питання
Спектральний аналіз слідів звуку
"Спектр - сукупність всіх значень будь-якої величини, що характеризує систему або процес"
(Словник іноземних слів. - М .: Російська мова, 198 8). У цьому сенсі дане слово застосовується досить-таки часто не тільки в науці і техніці, але, наприклад, і в політичному житті.
Що стосується нашої теми поняття спектра визначається наступним чином: "Спектр коливань - це сукупність гармонійних коливань, на які може бути розкладений даний складний коливальний рух" (
Фізичний енциклопедичний словник).
Яким же чином будь-який довільне коливальний рух, зображене на рис.
12, Можна розкласти на елементарні складові частини - мікрогармонікі? Для цього існують спеціальні прилади - спектроаналізатори. Але оскільки ми розглядаємо сигнали, представлені в цифровій формі в пам'яті комп'ютера, то для отримання їх спектрів ніякі додаткові прилади не потрібні. Спектри будь-яких сигналів, що зберігаються в пам'яті комп'ютера, розраховуються математично за допомогою так званого перетворення Фур'є.
Робиться це, приблизно, в такий спосіб. З усього сигналу, що зберігається в пам'яті комп'ютера, вирізається ділянка невелика тривалості, який потім обробляється за допомогою спеціальної математичної програми (званої Фур'є-перетворенням), яка показує, зі скількох гармонік складається аналізованих фрагмент сигналу, яка їхня частота,
амплітуда і фаза.
Оскільки на виході Фур'є перетворення є дуже багато даних (частоти, амплітуди і фази всіх гармонік в сигналі), то графічно візуалізують тільки найважливіші (найбільш інформативні). З цієї причини фазові характеристики зазвичай не показують. А показують в основному тільки амплітудні спектри.
На рис.
15
показаний спектр сигналу, який складається лише з однієї гармоніки, зображеної на рис. 14 . Цей спектр вказує, що в досліджуваному сигналі є одна гармоніка з частотою F і амплітудою A. Те, що спектр виглядає не у вигляді тонкої вертикальної лінії на частоті F і висоті A, а має, як кажуть, вид пелюстки досить-таки великий ширини, пояснюється природою спектрального аналізу. В принципі шириною цього пелюстки можна управляти, звужуючи або розширюючи його. У цьому випадку говорять про зміну роздільної здатності спектра по частоті.
Мал.15. Спектр сигналу, що складається тільки з однієї гармоніки.
Поняття вибору роздільної здатності спектра дуже важливо і трохи схоже на поняття наведення на різкість, з яким ми стикаємося завжди, коли маємо справу з отриманням фотографічного відображення за допомогою фотоапарата, кінокамери або відеокамери. Можна стверджувати, що тільки правильно вибравши роздільну здатність амплітудного спектра, можна розраховувати на успішне виявлення і розрізнення слідів звуку різних об'єктів. Щоб ближче познайомитися з цим поняттям розглянемо наступний приклад.
Припустимо, що нам необхідно розрізнити в сигналі, показаному на рис.
16, Все його складові гармонійні компоненти, об'єктивно в ньому присутні. Для цього ми використовується амплітудний спектр. Спробуємо змінювати роздільну здатність амплітудного спектра і стежити за тим, як будуть проявлятися сліди гармонійних компонент нашого досліджуваного сигналу на рис. 16 .
Мал.16. Складний сигнал, що містить сліди трьох гармонік.
Оскільки заздалегідь ми не знаємо, які частоти гармонік мають складові досліджуваного сигналу, то почнемо з низької роздільної здатності амплітудного спектра - 400 Гц. Спектр з таким дозволом по частоті показаний на рис.
17
. Скільки в ньому є максимумів, з упевненістю стверджувати дуже складно.
Мал.17. Спектр з дозволом по частоті - 400 Гц.
Підвищимо роздільну здатність спектра по частоті до величини - 300 Гц. Спектр з таким дозволом по частоті показаний на рис.
18
. На ньому видно лише два близько розташованих максимуму. Якщо на цьому зупинити дослідження, то можна отримати неправильний висновок про те, що сигнал складається тільки з двох гармонік.
Мал.18. Спектр з дозволом по частоті - 300 Гц.
Але продовжимо дослідження. Підвищимо роздільну здатність спектрального аналізу до 200 Гц. В результаті (див. Рис.
19
) В спектрі один з максимумів (лівий), який ми раніше прийняли за слід однієї гармоніки, починає роздвоюватися.
Мал.19. Спектр з дозволом по частоті - 200 Гц.
Підвищимо роздільну здатність спектрального аналізу до 100 Гц (див. Рис.
20
). В цьому випадку в спектрі з'являються добре помітні сліди вже трьох гармонік. Таким чином, виявляється, що досліджуваний сигнал містить сліди не двох, а трьох гармонік.
Мал.20. Спектр з дозволом по частоті - 100 Гц.
Щоб бути впевненими в правильному виведення, підвищимо роздільну здатність спектра ще в два рази і доведемо її до 50 Гц (див. Рис.
21
). На ньому вже чітко помітні сліди всіх трьох гармонік, з яких складається досліджуваний нами сигнал (на рис. 16 ). Провівши вимірювання їх частот на спектрі, отримуємо їх значення: 2300, 2500 і 3000 Гц.
Мал. 21. Спектр з дозволом по частоті - 50 Гц.
На рис.
22
показаний сонофільм зі слідами цих гармонік, налаштований на роздільну здатність по частоті ѕ 100 Гц.
Мал.22. Сонофільм сигналу з рис. 16 з дозволом по частоті - 100 Гц.
Зазвичай, щоб правильно прочитати (зрозуміти) амплітудний спектр, слід в першу чергу виявити в ньому все локальні максимуми. Кожен локальний максимум несе інформацію про наявність в досліджуваному сигналі елементарної гармонійної компоненти з частотою, на якій розташований локальний максимум, і амплітудою, що дорівнює висоті цього локального максимуму.
Спектр більш складного сигналу показаний на рис.
23. Це спектр фрагмента реального мовного сигналу, показаного на рис. 12 (Причому не важливо якого - верхнього або нижнього, оскільки їх спектри повністю збігається по розташуванню локальних максимумів на осі частот).
Мал.23. Спектр звуку "о" з малюнка 12 .
Таким чином, амплітудні спектри дозволяють нам виділити в мовному сигналі головні інформаційні складові - елементарні гармонійні компоненти, з яких складається сам сигнал. Тому в подальшому викладі амплітудні спектри гратимуть першочергову роль в інформаційній технології аналізу і обробки мовних сигналів.
початок - фонограма - слід - Спектр - мова - фоноскопія - питання
Можна розкласти на елементарні складові частини - мікрогармонікі?