dr inż. Jerzy Sawicki

 

Użyteczność sygnału mowy w technice biometrycznej

(pełny tekst referatu wygłoszonego na zebraniu naukowym Zakładu Cybernetyki i Elektroniki w dniu 11 grudnia 2003)

Wstęp

Identyfikacja znanych nam osób na podstawie usłyszanego głosu jest czynnością z łatwością wykonywaną w codziennych kontaktach. Rozpoznawanie osób na podstawie głosu jest szczególnie istotne w rozmowach telefonicznych, gdyż ograniczone są wtedy inne sposoby identyfikacji. Powszechność i naturalność tego zjawiska sprawia, że na ogół nie zdajemy sobie sprawy jakie cechy wypowiedzi są w tym naturalnym procesie uwzględniane i dopiero próba przeniesienia tej czynności na grunt urządzeń technicznych uświadamia nam pełny zakres trudnych do rozwiązania problemów. Nie znaczy to wcale, że czułość lub dokładność naszych zmysłów (w szczególności słuchu) jest nieosiągalna dla urządzeń technicznych – jest wręcz przeciwnie, każdą z wielkości fizycznych charakteryzujących sygnał mowy mogą one określić znacznie dokładniej niż czynią to nasze naturalne analizatory. To jednak człowiek potrafi lepiej (przynajmniej na razie) wykorzystać pełną informację z sygnału głosowego. Wynika to z faktu, że zmysł słuchu  i układ nerwowy człowieka są wysoce wyspecjalizowane i wyuczone w odbiorze i analizie sygnału mowy, ale niestety zachodzące przy tym procesy nie są do końca poznane.  Analiza głosu jest przedmiotem badań specjalistów z wielu dziedzin: fonetyków, foniatrów, logopedów i specjalistów od telekomunikacji, ale pomimo trwających już dziesiątki lat badań, sygnał mowy należy uznać za bardzo złożony i trudny do pełnej (czyli analogicznej do analizy wykonywanej przez słuch) interpretacji.

Wiadomo, że sygnał mowy zawiera złożoną informację pozwalającą odebrać nie tylko podstawowe znaczenie wypowiedzi (możliwe do zapisania w postaci tekstu), ale także ocenić między innymi płeć, wiek, stan zdrowia, nastrój, pochodzenie, status społeczny, wykształcenie i inne podobne cechy. W każdej, odpowiednio długiej, wypowiedzi zawarta jest zatem informacja pozwalająca na rozpoznanie osoby mówiącej. Analiza parametrów czasowych i częstotliwościowych  głosu pozwala zawsze zauważyć i zmierzyć różnice między zarejestrowanymi nagraniami dwóch różnych osób wypowiadających ten sam tekst. Problem stanowi jednak fakt, że także dwie wypowiedzi tej samej osoby zarejestrowane w różnym czasie  są odmienne pod względem mierzalnych cech fizycznych. Sprawą o zasadniczym znaczeniu jest zatem znalezienie takiego zestawu mierzonych parametrów wypowiedzi, dla którego zmienność międzyosobnicza jest wyraźnie większa od zmienności czasowej i sytuacyjnej. Dodatkowym problemem jest jakość techniczna analizowanego materiału głosowego. Sygnał akustyczny głosu, przy każdej rejestracji, ale zwłaszcza przy transmisji typowymi kanałami telekomunikacyjnymi ulega ograniczeniu od strony niskich i wysokich częstotliwości, jest dodatkowo zakłócany szumami, a w niektórych przypadkach (np. telefonia GSM) jest poddawany skomplikowanemu przetwarzaniu redukującemu objętość informacyjną. Chociaż sygnał mowy słusznie jest uważany za redundantny, to z punktu widzenia zastosowań biometrycznych wymienione modyfikacje sygnału są oczywiście niekorzystne.

Sygnał mowy może być opisany za pomocą bardzo wielu różnych parametrów fizycznych zmieniających się w trakcie wypowiedzi. Istnieją rozmaite, znane techniki pomiaru głosu opracowane dla potrzeb fonetyki akustycznej, medycyny, automatycznego rozpoznawania mowy i w wielu innych zastosowaniach. Wydaje się zatem, że nie ma potrzeby poszukiwania nowych metod reprezentacji sygnału mowy, ale należy skoncentrować się na zbadaniu użyteczności już istniejących. Wybranie odpowiednich metod i parametrów zadecyduje o skuteczności automatycznych systemów rozpoznawania głosów, które mogłyby stać się systemami biometrycznymi do identyfikacji lub weryfikacji tożsamości osoby mówiącej.

 

 

Model wytwarzania mowy

Analiza głosu człowieka musi uwzględniać jego strukturę czasowo-częstotliwościową, ta zaś zależy od zjawisk towarzyszących wytwarzaniu tego sygnału. Wytwarzanie mowy jest złożonym procesem, w który zaangażowane są miedzy innymi: płuca, oskrzela i tchawica, tworzące drogę doprowadzającą  strumień powietrza do krtani, w której znajdują się fałdy głosowe (potocznie zwane strunami głosowymi) wytwarzające tak zwany ton krtaniowy, który jest następnie filtrowany w dalszej części traktu głosowego składającego się z odpowiednio ułożonych następujących narządów: języka, języczka, podniebienia twardego i miękkiego, zębów i ust a w przypadku niektórych dźwięków także nozdrzy. Narządy te tworzą naturalny rezonator wnękowy wzmacniający pewne częstotliwości tonu krtaniowego.

Szczegóły budowy anatomicznej traktu głosowego (rozmiary geometryczne, impedancje akustyczne tkanek) są odmienne dla każdej osoby, a każda różnica znajduje odbicie w parametrach akustycznych wytwarzanego głosu.  Użyteczne jest przedstawienie procesu wytwarzania głosu za pomocą prostego modelu źródło-filtr, w którym dokonuje się umownego podziału na proces wytwarzania energii dźwięku (fonacja) i kształtowania jego charakterystyki częstotliwościowej (artykulacja).

 

 

 

 

 

 

 


W procesie wytwarzania głosu można wyróżnić dwie podstawowe warstwy powstawania cech charakterystycznych dla osoby mówcy:

·         fizyczną, wynikającą z budowy anatomicznej traktu głosowego (źródło i filtr),

·         psychiczną, wynikającą z indywidualnego, wyuczonego sposobu sterowania narządami fonacyjnym i artykulacyjnymi.

Podział ten przypomina stosowane w technice komputerowej rozdzielenie sprzętu (hardware) i oprogramowania (software). W przypadku wytwarzania głosu „sprzętem” są narządy mowy człowieka, a „oprogramowaniem” czynności kolejnych pięter ośrodkowego układu nerwowego. Użyteczne biometrycznie cechy zawierają obydwie warstwy modelu wytwarzania głosu.

W warstwie fizycznej celowe jest rozdzielenie dwóch etapów produkcji mowy oraz możliwość definiowania i pomiaru parametrów obydwu bloków: źródła i filtru. Zasadniczym problemem ograniczającym weryfikację takiego podziału  jest niedostępność samego sygnału źródła g(t). Jedynym dostępnym pomiarowo sygnałem jest wyjściowy sygnał mowy s(t), który jest splotem sygnału pobudzenia źródła g(t) i odpowiedzi impulsowej filtru h(t). Istnieją jednak takie metody cyfrowego przetwarzania sygnału mowy które pozwalają korzystając z przedstawionego modelu  dokonać przybliżonego rozdzielenia obydwu tych funkcji. Omówiony model jest także właściwy dla opisu wytwarzania głosek bezdźwięcznych (wytwarzanych bez udziału krtani za to ze źródłem szumowym w miejscu przewężenia rezonatora akustycznego). Źródło pobudzenia dźwięku i naturalny akustyczny rezonator wnękowy jakim jest odcinek traktu głosowego od źródła dźwięku do otworu ust i/lub nozdrzy są niepowtarzalną ze względu na szczegóły budowy anatomicznej konstrukcją umożliwiająca generowanie głosu.

Uważa się, że parametry akustyczne źródła zawierają cechy osobnicze mówcy wynikające z indywidualnych cech anatomicznych narządu fonacyjnego oraz specyficznego sposobu sterowania zmianami wysokości głosu (zmiany tak zwanej częstotliwości podstawowej głosu F0). Parametry akustyczne źródła odzwierciedlają zatem zarówno warstwę fizyczną jak i częściowo psychiczną układu wytwarzania mowy. Należy także zauważyć, że analiza źródła nie zajmuje się treścią wypowiedzi (ta jest nadawana w układzie filtru), zatem może bazować na dowolnych próbkach wypowiedzi.

Parametry filtru także zawierają cechy osobnicze wynikające z budowy anatomicznej traktu głosowego. Podstawowe znaczenie ma charakterystyka częstotliwościowa rezonatora, którego kształt geometryczny zmienia się dynamicznie w trakcie wypowiedzi. Często bierze się pod uwagę położenie i kształt kilku pierwszych lokalnych maksimów charakterystyki amplitudowej, zwanych formantami. Istotny jest także sposób sterowania zmianami kształtu rezonatora przez układ nerwowy. Procesy temu towarzyszące są niezwykle złożone i w efekcie  zindywidualizowane. Przejście od myślowego planu wypowiedzi do jej realizacji wymaga wykorzystania wyuczonych reguł artykulacyjnych oraz koordynacji ruchów artykulacyjnych w obrębie poszczególnych mięśni i stawów, wspomaganej wielokierunkowymi sprzężeniami zwrotnymi i w efekcie  pozwalającej na wytwarzanie zrozumiałej mowy. Wszelkie niedoskonałości wymowy, zniekształcanie lub pomijanie niektórych głosek mogą być użyte do rozpoznawania głosów.

 

Parametry opisujące sygnał mowy

Pierwsze próby rozpoznawania głosów w inny sposób niż za pomocą słuchu bazowały na porównaniu obrazów akustycznych wypowiedzi, tak zwanych spektrogramów. Istotnie każdy spektrogram (rys. 3) zawiera dużą ilość użytecznych informacji w układzie współrzędnych czas-częstotliwość-amplituda.

 

Dwa spektrogramy (SPG) wypowiedzi [speech analysis]: po lewej spektrogram szerokopasmowy, po prawej spektrogram wąskopasmowy - nad rysunkami spektrogramów pokazano  przebieg czasowy sygnału z zaznaczonymi impulsami tonu krtaniowego (wykresy otrzymano za pomocą programu Multi-Speech firmy Kay)

 

Obraz spektrogramu jest wynikiem obliczeń, w których należy zdecydować między innymi czy chcemy uzyskać większą rozdzielczość czasową czy częstotliwościową. Zależnie od tego zmienia się obraz spektrogramu. Prawy spektrogram z rysunku prezentują dobrą rozdzielczość częstotliwościową pozwalającą porównywać częstotliwości harmoniczne tonu podstawowego oraz określić położenie tak zwanych formantów (charakterystycznych dla danej głoski), natomiast niedokładnie oddaje strukturę czasową wypowiedzi. Wynika to z faktu, że dokładna analiza częstotliwościowa wymaga użycia do obliczeń dużej ilości próbek przebiegu czasowego, co powoduje uśrednienie wyników w dziedzinie czasu. Dokładniejszą analizę w dziedzinie czasu można uzyskać zmniejszając ilość próbek w obliczeniach FFT – efektem jest jednak zmniejszenie dokładności w dziedzinie częstotliwości (lewy spektrogram). Porównując obydwa rodzaje spektrogramów z modelem wytwarzania mowy widać, że spektrogram wąskopasmowy reprezentuje przede wszystkim właściwości filtru, natomiast spektrogram szerokopasmowy lepiej odzwierciedla właściwości źródła. W rozpoznawaniu głosów można równolegle wykorzystywać obydwa typy spektrogramów a rozwój technik automatycznego rozpoznawania obrazów oraz sztucznej inteligencji z zastosowaniem sztucznych sieci neuronowych pozwala przewidywać użyteczność tego sposobu analizy. W przypadku spektrograficznych obrazów akustycznych łatwa jest normalizacja i standaryzacja obrazu we wszystkich kierunkach analizy, czyli czasu, częstotliwości i amplitudy.

Użyteczne jest także posługiwanie się parametrami akustycznymi wynikającymi z modelu wytwarzania głosu typu źródło-filtr. Źródło pobudzenia krtaniowego może być opisane za pomocą następujących parametrów:

·        wartość częstotliwości podstawowej F0,

·        przebieg zmian F0 w trakcie wypowiedzi (tak zwany kontur intonacyjny),

·        zmiany w kolejnych (sąsiednich) okresach drgań (ang. jitter),

·        zmiany amplitudy pobudzenia w kolejnych okresach drgań (ang. shimmer),

·        kształt przebiegu czasowego funkcji pobudzenia krtaniowego,

·        widmo pobudzenia krtaniowego,

·        charakterystyki prozodyczne.

Parametry filtru kształtującego charakterystykę częstotliwościową wypowiedzi, które mogą mieć zastosowanie biometryczne   to przede wszystkim:

·        transmitancja filtru, która może być w dużym uproszczeniu reprezentowana przez tak zwane częstotliwości formantowe (lokalne maksima obwiedni widma),

·        odpowiedź impulsowa filtru,

·        współczynniki analizy LPC (ang. Linear Predictive Coding),

·        wyniki analizy przejść przez zero przebiegu czasowego w określonych pasmach częstotliwości,

·        wyniki pasmowej analizy widmowej.

Ponadto w sygnale mowy można badać takie parametry, które trudno jednoznacznie zaklasyfikować do któregoś z bloków modelu, takie jak:

·        parametry analizy kepstralnej,

·        średnie widmo długoterminowe,

·        relacje czasowe elementów językowych (głosek, sylab, wyrazów) charakterystyczne dla każdego mówcy,

·        analiza wyników akcentowania wyrazów.

Przy wyborze parametrów należy uwzględnić jakie próbki wypowiedzi będą rozpoznawane. Jeśli mają to być próbki dowolnej treści, to parametry stosowane w opisie filtru nie będą właściwe, gdyż zależą od składu fonetycznego wypowiedzi. Konieczne jest w takich przypadkach ograniczenie się do parametrów opisujących źródło, które funkcjonuje w taki sam sposób przy różnych wypowiedziach. Jeżeli natomiast tekst wypowiedzi może być wcześniej ustalony jako tak zwane hasło, wtedy możemy korzystać z wszystkich wymienionych parametrów.

Pozostają jednak do rozwiązania problemy:

·        synchronizacji czasowej wypowiedzi (różne tempa mówienia),

·        zgodności analizowanego pasma częstotliwości (wpływ charakterystyk tłumieniowych urządzeń elektroakustycznych zastosowanych do rejestracji, przechowywania lub transmisji sygnału).

Uważa się, że z punktu widzenia rozpoznawania głosów warto koncentrować się na badaniach parametrów źródła. Z fizycznego punktu widzenia źródłem tonu krtaniowego są fałdy głosowe tworzące wraz z układem mięśni i nerwów generator aerodynamiczny napędzany energią wydychanego z płuc powietrza. Wymiary geometryczne i szczegóły budowy anatomicznej decydują o parametrach akustycznych sygnału pobudzenia. Chociaż sygnał ten nie jest bezpośrednio dostępny pomiarowo, wiele jego cech może być określonych na podstawie zarejestrowanego przez mikrofon głosu. Na rys. 4 przedstawiono przykładowe wyniki analizy komputerowej częstotliwości podstawowej F0.

                                  

Komputerowa analiza statystyczna pobudzenia krtaniowego krótkiego fragmentu

(około 4,7 sekundy) wypowiedzi  (wyniki pochodzą z programu Multi-Speech firmy Kay)

 

Analiza komputerowa dostarcza między innymi informacji o zakresie zmian wartości F0 w trakcie mówienia, wartości średniej, parametrach jitter i shimmer wraz z ich analizą metrologiczną. Jeszcze więcej informacji powinno przynieść badanie samego przebiegu pobudzenia. Jak wcześniej wspomniano sygnał ten nie jest bezpośrednio dostępny, gdyż przechodząc przez dalsze części traktu głosowego ulega modyfikacji zależnej od treści wypowiedzi. Problem z odtworzeniem sygnału pobudzenia nie został jeszcze dobrze rozwiązany. Obecnie stosowane metody to:

·        dzielenie zespolonego widma sygnału mowy przez jego obwiednię (w niej zawarte są bieżące informacje artykulacyjne),

·        analiza kepstralna, pozwalająca teoretycznie na zamianę operacji mnożenia sygnałów na ich sumowanie i w efekcie rozdzielenie  (poprzez tak zwaną liftrację) funkcji odpowiedzi impulsowej kanału głosowego od  sygnału pobudzenia.

W warstwie szczegółowej pojawia się jednak szereg trudnych do rozwiązania problemów, które nie mogą dziwić jeśli weźmie się pod uwagę, że model źródło-filtr to znaczne uproszczenie rzeczywistych interaktywnych procesów fonacji i artykulacji.

 

Wyniki badania zmienności czasowej i osobniczej parametrów głosu

Podstawowym problemem w analizie głosu jest zmienność jego parametrów wynikająca z tak wielu przyczyn, że nie sposób ich wymienić. Najpoważniejsze i najczęstsze wynikają z chorób układu oddechowego – zwykłe przeziębienie znacząco zmienia parametry sygnału pobudzenia wskutek obrzmienia narządów fonacyjnych. Także zmiana sytuacji, miejsca, upływ czasu zmieniają parametry głosu. Aby przekonać się o wielkości tych zmian przeprowadzono eksperyment, który polegał na rejestracji i porównaniu głosów dwunastoosobowej grupy studentów (wyłącznie mężczyźni) w odstępie jednego miesiąca. Materiał dźwiękowy stanowiły samogłoski podstawowe języka polskiego, z których do prezentacji wyników wybrano wypowiadaną w izolacji głoskę [a]. Dokonano pomiaru  częstotliwości formantów F1 i F2. Wartości częstotliwości dwóch pierwszych formantów F1 i F2 zostały wykonane na podstawie obwiedni widma uzyskanej metodą predykcji liniowej (rys. 5).

 

F1

 

F2

 
 


 


Analiza częstotliwości formantowych: w dolnym oknie widmo sygnału oraz obwiednia widma uzyskana techniką LPC, w górnym oknie przebieg czasowy (głoska [a])

 

Wyniki pomiarów zostały przedstawione w tabeli.

Tabela: Zmiany częstotliwości formantowych w głosce [a]

 

Pierwsza analiza

Po miesiącu

Lp.

Osoba

F1 [Hz]

F2 [Hz]

F1 [Hz]

F2 [Hz]

1

MP

781

1312

789

1257

2

TF

796

1250

835

1257

3

AM

843

1296

843

1289

4

KK

765

1054

757

1125

5

BG

804

1132

671

1117

6

TR

718

1117

710

1132

7

TC

750

1242

742

1304

8

MO

789

1210

820

1234

9

DJ

695

1210

695

1257

10

KM

937

1320

929

1320

11

PC

757

1304

781

1320

12

DM

742

1164

726

1179

 

Okazuje się, że zmiany czasowe mierzonych parametrów, jakkolwiek niewielkie, są porównywalne z różnicami pomiędzy poszczególnymi osobami. Wyjątkiem są głosy, których parametry nie uległy wyraźnej zmianie (osoby: AM, DJ, KM). Wynik ten należy tłumaczyć zbieżnością wszystkich realizacji głosek do wzorcowego fonemu [a], jaki starali się uzyskać mówcy (nie byli poinformowani o celu eksperymentu). Należy zaznaczyć, że według informacji literaturowych głoski [a] oraz [o] najlepiej nadają się do zastosowań w identyfikacji głosów.

 

 

Algorytmy rozpoznawania głosów

Systemy rozpoznawania osób na podstawie głosu działają według procedury weryfikacji lub identyfikacji. Przy weryfikacje mówca deklaruje swoją tożsamość a urządzenie sprawdza czy aktualnie wypowiedziana próbka głosu jest podobna pod względem analizowanych cech fizycznych  do zapamiętanego wzorca. W przypadku identyfikacji nie deklaruje się wstępnie tożsamości a urządzenie biometryczne analizuje podobieństwo cech dostarczonej próbki głosu z cechami zarejestrowanych w systemie użytkowników. Weryfikacja wymaga mniejszej złożoności i mocy obliczeniowej niż identyfikacja. Poszczególne etapy obydwu procedur są podobne i mogą być przedstawione w sposób pokazany na rysunku.

 

 


 

 

 

 

 

 

 

 

Rozróżnia się systemy rozpoznawania głosów zależne od tekstu, w których zawartość fonetyczna materiału uczącego (wzorzec) i testowego jest taka sama oraz systemy niezależne od tekstu, gdy obydwie wypowiedzi różnią się co najmniej kolejnością słów. Systemy z ustalonym tekstem (hasłem) cechuje prostsza budowa i mniejszy odsetek błędnych odrzuceń. Bardziej szczegółowe klasyfikacje wyróżniają wśród systemów zależnych od tekstu rozwiązania z hasłem osobistym i ogólnym, a wśród systemów niezależnych od tekstu wyróżnia się rozwiązania z ustalonym (ograniczonym) słownikiem i nieograniczonym.

W analizie akustycznej rozpoznawanych głosów stosuje się dwa rodzaje modeli mówców:

·         modele z wzorcami parametrów (z szablonami cech),

·         modele stochastyczne.

Metody porównania wypowiedzi testowej z jej szablonem, wymagają porównania tzw. wektora cech akustycznych ciągu uczącego i testowego. Wektor cech może zawierać parametry akustyczne o różnych mianach fizycznych, wobec czego konieczne jest przyporządkowanie im odpowiednich współczynników wagowych. Wektor cech oblicza się dla kolejnych ramek czasowych wypowiedzi o długości kilkudziesięciu milisekund (żeby uniknąć zjawiska uśredniania cech dla sąsiednich głosek). Następnie dokonuje się obliczenia odległości w przestrzeni cech między wektorami wypowiedzi wzorcowej i testowej. Możliwe są do wykorzystania różnego rodzaju miary odległości (metryki) stosowane w przestrzeniach wielowymiarowych, a częstym kryterium wyboru jest szybkość obliczeń. Proces decyzyjny polega na znalezieniu tzw. najbliższego sąsiada NN (ang. Nearest Neighbour) dla wektora testowego spośród wszystkich wektorów wzorcowych. Jeśli weźmie się pod uwagę kilkusekundowe wypowiedzi i wektory cech z kilkunastoma parametrami, to staje się jasne, że jest to metoda bardzo złożona obliczeniowo. Mniej wymagającą obliczeniowo metodą jest kwantyzacja wektorowa (ang. Vector Quantization). W tej metodzie każdy mówca posiada reprezentację kilkudziesięciu wektorów kodowych (możliwie najdokładniej odzwierciedlających cechy akustyczne jego głosu), zwaną książką kodową. Podobnie jak w metodzie NN poszukuje się dla każdego wektora testowego jego najbliższego sąsiada z książki kodowej. Decyzję podejmuje się na podstawie sumarycznej odległości dla całej wypowiedzi testowej.

Innym sposobem reprezentacji mówcy są modele stochastyczne. Algorytmy bazujące na modelach stochastycznych pozwalają uzyskać dużą efektywność rozpoznawania. Wyróżnić należy dwie grupy algorytmów:

·         algorytm rozpoznawania Bayesa (i jego modyfikacje),

·         modele bazujące na ukrytych łańcuchach (modelach) Markowa HMM (ang. Hidden Markow Models).

Spośród wielu opracowanych rozwinięć algorytmu Bayesa warto wymienić modele z liniową kombinacją rozkładów normalnych GMM (ang. Gaussian Mixture Models). Systemy rozpoznawania głosów bazujące na tej metodzie dają jak dotąd najlepsze rezultaty.

Idea HMM polega na traktowaniu sygnału mowy jako sekwencji obserwacji, które z jednej strony stanowią ciąg uczący w procesie tworzenia modeli stochastycznych, a z drugiej – wyjście  tych modeli. W tej metodzie analizuje się prawdopodobieństwa występowania określonych sekwencji cech akustycznych głosu. Pozwala to stosować dowolne teksty wypowiedzi jako reprezentacje głosu.

Na koniec należy wspomnieć, że nowe  możliwości w dziedzinie rozpoznawania głosów (w grupie modeli stochastycznych i w procesach decyzyjnych) stwarza zastosowanie sztucznych sieci neuronowych, algorytmów genetycznych i logiki rozmytej.

 

Zakończenie

Rozpoznawanie osób na podstawie analizy głosu należy do jednej z najwcześniejszych technik biometrycznych. Mimo znacznych postępów w dziedzinie automatycznego rozpoznawania głosów, metoda ta w zastosowaniach biometrycznych jest zdecydowanie bardziej zawodna niż inne techniki np. analiza obrazu tęczówki i siatkówki oka. Chociaż nie zanosi się na zmianę tej sytuacji to analiza głosu nadal będzie potrzebna w tych przypadkach, w których inne metody nie mogą być zastosowane. Podstawowym polem stosowania tej  metody jest i pozostanie łączność telefoniczna. Wysoka akceptowalność stosowania badania głosu pozwala także przewidywać coraz szersze jej zastosowanie pod warunkiem uzyskania wyższej wydajności. Na podstawie dotychczasowego rozwój techniki rozpoznawania głosów widać przechodzenie od badania poszczególnych, starannie wydobytych z modelu wytwarzania mowy, cech akustycznych (często związanych ze znaczeniem elementu językowego) do badań stochastycznych, operujących dużą ilością danych wejściowych.  Coraz częściej bada się sam sygnał, abstrahując od mechanizmów jego wytworzenia i zawartości semantycznej. Znaczna złożoność obliczeniowa algorytmów stochastycznych nie stanowi obecnie istotnego ograniczenia, jeśli tylko w ślad za tym idzie poprawa skuteczności działania systemu.

W roku 1991 firma Voice Strategies zaoferowała kompletny system kontroli dostępu do pomieszczeń sterowany głosem – Voice Access Control System, oparty o technologię firmy Texas Instruments. Nie podano podstawowych parametrów systemu, takich jak stopa błędnych akceptacji FAR i błędnych odrzuceń FRR. Także w innych, nowszych ofertach nie przedstawia się konkretnych parametrów wskazujących na wydajność systemu. Jednak według niezależnych ekspertów odsetek niepowodzeń procesu rejestracji uprawnionego użytkownika w systemach sterowanych głosem może wynosić od 1% aż do nawet 30% (zależnie od warunków procesu akwizycji i stanu psychofizycznego użytkownika). Nawet tak prozaiczne zjawisko jak przeziębienie, może zmniejszyć szanse na poprawne rozpoznanie głosu. W perspektywie najbliższych lat należy jednak oczekiwać dalszych intensywnych badań głosu w ujęciu biometrycznym i idącą za tym poprawę skuteczności systemów rozpoznających, gdyż kwestia weryfikacji tożsamości w komunikacji telefonicznej będzie nabierać coraz większego znaczenia.

 

Literatura

 

1.          Ortega-Garcia, J.; Gonzalez-Rodriguez, J.; Cruz-Llanas, S.: Speech variability in automatic speaker recognition systems for commercial and forensic purposes, IEEE Aerospace and Electronics Systems Magazine , Volume: 15 Issue: 11 , Nov. 2000, pp.: 27 –32.

2.          Ben-Yacoub, S.; Abdeljaoued, Y.; Mayoraz, E.: Fusion of face and speech data for person identity verification, Neural Networks, IEEE Transactions on , Volume: 10 Issue: 5 , Sept. 1999,pp.: 1065 –1074.

3.          Campbell, J.P., Jr.: Speaker recognition: a tutorial, Proceedings of the IEEE , Volume: 85 Issue: 9 , Sept. 1997, pp.: 1437 –1462.

4.          Miller, B.: Vital signs of identity [biometrics], IEEE Spectrum , Volume: 31 Issue: 2 , Feb. 1994, pp.: 22 –30.

5.          Banachowicz T., Wiśniewski M.: Procedury identyfikacji i weryfikacji mówców na bazie ukrytych modeli Markowa, Biuletyn IAiR WAT, nr 13, 2000, s.49-58.

6.          Basztura Cz.: Rozmawiać z komputerem, Wydawnictwo Prac Naukowych FORMAT, Wrocław 1993.

7.          Dustor A., Izydorczyk J.: Rozpoznawanie mówców, Przegląd telekomunikacyjny, nr 2, 2003, s. 71-76.

8.          Grad L.: Badanie możliwości rozpoznawania mówcy na podstawie reprezentacji LPC sygnału mowy, Biuletyn IAiR WAT, nr 13, 2000, s. 59-72.

9.          Ashbourn J.: Biometrics: Advanced identity verification, Springer-Verlag, London 2000.