Головна

Авторизація



Міжнародні стандарти допоможуть синтезувати мову PDF Друк e-mail
Четвер, 27 березня 2014, 12:17

83_2014Наприкінці 17 століття датський вчений Християн Кратценштейн, дійсний член Російської Академії Наук, створив модель мовного тракту людини, здатну вимовляти п'ять довгих голосних звуків. Модель представляла собою систему акустичних резонаторів різної форми, які видавали голосні звуки за допомогою вібруючих язичків, порушуваних повітряним потоком. У 1778 австрійський учений Вольфганг фон Кампельо доповнив модель Кратценштейн моделями мови і губ і представив акустическо-механічну розмовляючу машину, здатну відтворювати певні звуки і їх комбінації. Шиплячі і свистячі видувалися за допомогою спеціального хутра з ручним керуванням. У 1837 вчений Чарльз Уітстоун представив покращений варіант машини, здатний відтворювати голосні і більшість приголосних звуків. А в 1846 році Джезеф Фабер продемонстрував свій оргАн, в якому була реалізована спроба синтезування не тільки мови, але й співу.

Наприкінці 19 століття знаменитий вчений Олександр Белл створив власну «говорячу» механічну модель, дуже схожу за конструкцією з машиною Уітстоуна. У 20 столітті почалася ера електричних машин, і вчені отримали можливість використовувати генератори звукових хвиль і на їх базі будувати алгоритмічні моделі.

У 30 -х роках 20 століття співробітник Bell Labs Хомер Дадлі розробляє пристрій кодування голосу - VOCODER, керований за допомогою клавіатури, електронний аналізатор і синтезатор мови. Ідея Дадлі полягала у тому, щоб проаналізувати голосовий сигнал, розібрати його на частини і пересинтезувати в менш вимогливий до пропускної здатності лінії.

Перші системи синтезу мови на базі обчислювальної техніки стали з'являтися наприкінці 1950-х років, а перший синтезатор «текст- в-мова» був створений в 1968 році.

Перші синтезатори мови звучали досить неприродно, і часто ледве можна було розібрати вироблені ними фрази. Проте якість синтезованої мови постійно поліпшувалося, і мова, що генерується сучасними системами синтезу мови, часом не відрізняэться від реальної людської мови.

Нещодавно фахівці Американського акустичного товариства (ASA) опублікували новий стандарт, у якому визначається метод експериментальної оцінки розбірливості синтезованої з тексту промови англійською мовою. ASA - це членська некомерційна організація, діяльність якої присвячена поширенню знань про акустику та її практичним застосуванням, а також розвитку механізмів дослідження шумового забруднення, його вимірювання, наслідків для живих організмів та шляхів зниження шуму для поліпшення середовища проживання людини. Членами ASA є як організації, діяльність яких пов'язана з акустикою, так і окремі фахівці з США і зарубіжних країн, сфера інтересів яких також охоплює акустику (до їх числа серед іншого входять фізики, інженери, фахівці в галузі робототехніки, океанографії, архітектури, музики і боротьби з шумом).

Стандарт ANSI/ASA S3.50-2013 "Оцінка розбірливості мови, синтезованої з використанням систем синтезу мови по тексту" призначений для застосування розробниками додатків на базі вищезгаданої технології. Йдеться про додатки для озвучування листів електронної пошти та SMS-повідомлень, ПЗ для інфокіосків з голосовим супроводом тексту, систем електронного навчання, систем навігації, сервісів автоматизованого обміну повідомленнями і допоміжних пристроїв для людей з обмеженими фізичними можливостями.

Даний документ допоможе виміряти здатність слухачів розрізняти слова, пропозиції та інші елементи фонетичного наповнення в потоці синтезованої мови. Крім того, стандарт дає рекомендації щодо методів проектування випробувальної середовища, контролю та створення звітів.

 

Сopyright 2009-2024, csm.kiev.ua