Multimediální zpracování signálů

| Kategorie: Diplomové, bakalářské práce  | Tento dokument chci!

Diplomová práce se zabývá vytvořením vhodných multimediálních podkladů z oblasti signálů a soustav se spojitým časem. Pochopení této problematiky je velmi důležité, neboť povinný předmět Signály a soustavy, resp. BSIS, je vyučován na bakalářském stupni oboru EST. Porozumění vyučované látky je nezbytnou prerekvizitou v dalších předmětech k úspěšnému zvládnutí navazující látky. Další část diplomové práce je zaměřena na jednorozměrné diskrétní signály. Konkrétně si klade za cíl realizaci softwarového systému. Navržený systém disponuje jak základními operacemi (energie signálu, počet průchodů nulou atd.) se zvukovými soubory, tak i funkcemi složitějšími, mezi které se řadí např. vyhledávání samohlásek v plynulé řeči. Systém je rozdělen na dvě části. První program analyzuje právě zvukové soubory, vytváří nový zvukový soubor s hledanou samohláskou a soubory s potřebnými parametry pro další zpracování. Druhý program analyzuje získaná data, která následně statisticky vyhodnocuje. Výsledný systém může být užitečný pro identifikaci mluvčího, jeho emočního stavu atd.

Vydal: FEKT VUT Brno Autor: Miroslav Staněk

Strana 13 z 79

Vámi hledaný text obsahuje tato stránku dokumentu který není autorem určen k veřejnému šíření.

Jak získat tento dokument?






Poznámky redaktora
složitější funkci možné zařadit automatické vyhledávání českých samohlásek pomocí LPC (linear prediction coding). Druhá část práce tedy zabývá analýzou LPC spekter českých samohlásek, kterých jsou hledány významné body a jejich hodnoty. Nově získané informace jsou statisticky prezentovány pomocí histogramů. Mezi tzv. Těmito body jsou maxima (formanty), minima (antiformanty) a inflexní body, které slouží určení šířek formantů antiformantů. Požadavky výslednou podobu programu vyplývaly postupem času, tak výsledný program disponuje základními i pokročilejšími operacemi zvukovými soubory. Při řádu lineární predikce obsahuje spektrum řečového signálu maximálně 4 ostrá maxima (formanty), jejichž vlastnosti jsou závislé konkrétních mluvčích, jejich emočních stavech aktuálních rozpoloženích. Následná rekonstrukce signálu spočívá přenosu spektrální obálky pomocí LPC koeficientů reprezentujících právě přenosovou funkci přizpůsobeného filtru pro rekonstrukci daného signálu. identifikace samotného mluvčího, jeho stavu atd.2 Vybraným řešením druhé části práce bylo zvoleno naprogramování softwarového systému pro parametrické zpracování jednorozměrných signálů pomocí, již zmíněného, programovacího prostředí MATLAB. Shrnutím úvodu můžeme tvrdit, oba dílčí programy softwarového systému mohou být dále rozšiřovány, využívány pro další aplikace jako jsou např. Obecně použití principu lineární predikce založeno navzorkování daného úseku (nejčastěji 20ms úsecích) signálu, kde pro každý vzorek vypočte příslušný LPC koeficient pomocí lineární kombinace vzorků předchozích. Mělo tedy jednat užitečné nástroje, které najdou uplatnění různých aplikacích mohou sloužit jako základní kameny dalším inovacím. Úspěšnost metody rozdílnost výsledků stanoví následné podrobné zkoumání histogramů pro jednotlivé mluvčí jejich módy vhodné řečové databáze. . Takto získaná data prvním programem jsou dále zpracována programem druhým, který určuje percentuální rozpoložení významných bodů prostorech mezi sobě jdoucími formanty frekvenčního hlediska) formantem jeho příslušným antiformantem (úrovňové hledisko). Díky tomuto způsobu interpretace obdržených výsledků dochází jejich jednoduššímu pochopení, tak porozumění aktuální analýzy řeči pro jednotlivé mluvčí jejich momentální rozpoložení jednodušší. Nesmíme ovšem zapomenout ani vytvořený online kurz, který jistě najde své využití nejen při výuce předmětu BSIS. lineární predikci možné říci, že řadí mezi parametrická zdrojová kódování často využívanou metodu (zejména v systému GSM) pro zpětnou rekonstrukci řečového signálu