Uploaded by toshtemirovhusniddin89

NLP(1).MUSTAQILISH

advertisement
MUHAMMAD AL-XORAZMIY
NOMIDAGI TOSHKENT AXBOROT
TEXNOLOGIYALARI UNIVERSITETI
KOMPYUTER INJINIRINGI FAKULTETI
SUN’IY INTELLEKT YO’NALISHI
223-21 TALABASI
MUHAMMADALIYEV NODIRJONNING
“TABIIY TILNI QAYTA ISHLASH”
FANIDAN
MUSTAQIL ISHI
Mavzu: NUQTNI AVTOMATIK TANISH
Reja:
I. Kirish
II. Asosiy qism
1. Nutqni aniqlash arxitekturasi
2. Nutqda qo'llaniladigan Yashirin Markov modeli
3. Xususiyatlarni ajratib olish: MFCC vektorlari
4. So'z xatosi darajasi baholash
III. Xulosa
IV. Foydalanilgan adabiyotlar
Kirish
Nutqni aniqlash vazifasining ba'zi parametrlari va san'ati holatini
muhokama qilaylik. Nutqni aniqlash vazifalaridagi o'zgaruvchanlikning
bir o'lchovi - lug'at hajmi. Agar biz tanib olishimiz kerak bo'lgan aniq
so'zlar soni kamroq bo'lsa, nutqni aniqlash osonroq bo'ladi. Shunday
qilib, ikki so'zli lug'atga ega bo'lgan vazifalar, masalan, "ha" yoki
"aniqlanmadi" yoki "raqamlar" vazifasi deb ataladigan vazifada
raqamlar ketma-ketligini tanib olish kabi o'n bir so'zli lug'at nisbatan
oson. Boshqa tomondan, katta lug'atga ega bo'lgan vazifalar, masalan,
odam-odam telefon suhbatlarini transkripsiya qilish yoki translyatsiya
yangiliklarini, 64 000 yoki undan ortiq so'zli lug'atga ega bo'lgan
vazifalar ancha qiyinroq.
Variatsiyaning ikkinchi jihati - nutqning qanchalik ravon, tabiiy yoki
suhbatdoshligi. Har bir so'z qandaydir pauza bilan o'ralgan holda
ajratilgan so'zni aniqlash, so'zlar bir-biriga kirib, segmentlarga bo'linishi
kerak bo'lgan doimiy nutqni tanib olishdan ko'ra osonroqdir. Uzluksiz
nutq vazifalarining o'zi qiyinligi jihatidan juda farq qiladi. Masalan,
odamdan mashinaga nutqni tanib olish odamdan odamga nutqqa
qaraganda ancha oson bo'lib chiqadi.Ya'ni, odamlarning mashinalar
bilan gaplashayotgan nutqini tanib olish, yoki o'qilgan nutqda baland
ovozda o'qish (bu diktant vazifasini taqlid qiladi) yoki nutq dialog
tizimlari bilan suhbatlashish nisbatan oson. Ikki kishining bir-biri bilan
gaplashayotgan nutqini tanib olish, masalan, ish uchrashuvini yoki
telefon suhbatini yozish uchun suhbat nutqini aniqlash ancha qiyin.
Aftidan, odamlar mashinalar bilan gaplashganda, ular nutqini biroz
soddalashtiradi, sekinroq va aniqroq gapiradi.
Variatsiyaning uchinchi o'lchovi - bu kanal va shovqin. Tijoriy
diktant tizimlari va nutqni aniqlash bo'yicha ko'plab laboratoriya
tadqiqotlari yuqori sifatli, boshga o'rnatilgan mikrofonlar bilan amalga
oshiriladi.
Boshga
o'rnatilgan
mikrofonlar
karnay
boshi
harakatlanayotganda stol mikrofonida yuzaga keladigan buzilishlarni
bartaraf qiladi. Har qanday shovqin ham tan olishni qiyinlashtiradi.
Shunday qilib, jim ofisda diktant qilayotgan ma'ruzachini tanib olish,
shovqinli mashinada, deraza ochiq holda, shosseda gapirayotgan
karnayni tanib olishdan ko'ra osonroqdir.
Variatsiyaning yakuniy o'lchovi - aksent yoki spiker sinfining
xususiyatlari. Ma'ruzachi standart dialektda yoki umuman tizim
o'qitilgan ma'lumotlarga mos keladigan dialektda gapirayotgan bo'lsa,
nutqni aniqlash osonroq. Shunday qilib, xorijiy urg'uli nutqni yoki
bolalar nutqini tanib olish qiyinroq (agar tizim aynan shu turdagi
nutqlarga moslashmagan bo'lmasa).
Shovqin va urg'u tufayli o'zgarishi xatolik darajasini biroz oshiradi.
Yapon tilidagi yoki ispan tilidagi aksent ingliz tilida so'z xatosi xuddi
shu vazifani bajarayotgan ona tilida so'zlashuvchilarga qaraganda 3-4
baravar yuqori ekanligi ma’lum bo’lgan. Va 10dB SNR bilan avtomobil
shovqinini qo'shish xatolik darajasini 2-4 baravar oshirishga olib kelishi
mumkin.
1-rasm.2006 yilda turli vazifalar bo'yicha ASR uchun ma'lum qilingan
so'z xatosi darajasi (noto'g'ri tanilgan so'zlarning %); Broadcast News va
CTS uchun xatolik stavkalari maxsus mashg'ulotlar va test stsenariylariga
asoslanadi va ularni to'plar soni sifatida qabul qilish kerak.
Umuman olganda, bu xatolik darajasi har yili pasayadi, chunki nutqni
aniqlash ko'rsatkichlari barqaror ravishda yaxshilandi. Hisob-kitoblardan
biri, algoritmik takomillashtirish va Mur qonunining kombinatsiyasi
tufayli so'nggi o'n yillikda (Deng va Huang, 2004) samaradorlik yiliga
taxminan 10 foizga yaxshilangan.
Nutqni aniqlash arxitekturasi
1-rasm.Yuqoridagi rasmda nutqni avtomatik aniqlashning umumiy
arxitekturasi tasvirlangan.
ASR xuddi boshqa mashinani o'rganish muammolari kabi, bu erda
maqsad tovush to'lqinini nutqning asosiy birliklaridan biriga, masalan,
so'zga tasniflashdir. Inson nutqi bilan bog'liq muammo shundaki, u so'zni
talaffuz qilishda yuzaga keladigan ohang, balandlik va ko'tarilishda juda
ko'p o'zgarishlarni o'z ichiga oladi.
Bu o'zgaruvchanlikning bir qancha sabablari bor, ya'ni vokal
kordlariga stress, atrof-muhit sharoitlari, mikrofon sharoitlari va boshqa
ko'plab sabablar. Nutqdagi bu o'zgarishlarni aniqlash uchun Gauss
aralashmasi modeli bilan Yashirin Markov modeli (HMM) kabi
mashinani o'rganish algoritmlari qo'llaniladi. So'nggi yillarda chuqur
neyron tarmoqlari ham qo'llanilmoqda.
Nutqni tanib olishdagi qiyinchiliklar
Nutqni aniqlash modellarini ishlab chiqishda bir qancha qiyinchiliklar
mavjud:
 Yuqori aniqlikdagi modelni yaratish
 Til, urg‘u, sheva qamrovi
 Xavfsizlik va maxfiylik
 Xarajat va joylashtirish
Yuqori aniqlik modellari
Modellarni baholashda e'tiborga olish kerak bo'lgan ba'zi omillar
mavjud. Bu omillar odatda yuqori aniqlikka erisha olmaslik uchun
javobgardir.
Odamlarning turli mintaqalaridagi nutq naqshlari va urg'ulari va bu
mintaqadagi odamlar turli xil gapirish usullariga ega bo'lishi mumkin,
bu esa urg'u va nutq namunalarini tanib olish uchun modelni o'rgatish
juda qiyin.
Agar bir nechta ma'ruzachilar mavjud bo'lsa, ular tez-tez bir-birlarini
to'xtatadilar yoki bir vaqtning o'zida gapiradilar, bu hatto eng tajribali
inson transkriptorlari uchun ham qiyin vazifa bo'lishi mumkin.
Bundan tashqari, musiqa, suhbat va hatto shamol shovqinlari ham
transkripsiyaning aniqligiga ta'sir qiladi, chunki kompyuter so'zni topish
uchun tovush chaqishlaridan foydalanadi va bu boshqa tovushlar
noaniqliklarga olib kelishi mumkin.
Ushbu modellar tanib olishga o'rgatilgan so'z yoki iboralarni taniydi.
Aniqlik uchun to'siqlarga sho'ng'ishdan oldin, Word xatolik darajasi
(WER) ovozni aniqlash tizimining aniqligi va ishlashini o'lchash uchun
keng tarqalgan ishlatiladigan ko'rsatkich ekanligini eslatib o'tish o'rinli
bo'ladi.
Xarajat va joylashtirish muammosi
Nutqni aniqlash modellarini ishlab chiqish va qo'llab-quvvatlash
qimmat va doimiy jarayondir. Agar nutqni aniqlash modeli turli tillar,
lahjalar va urg'ularni qamrab oladigan bo'lsa, unga katta hajmdagi o'quv
ma'lumotlari, etiketli ma'lumotlar va katta hisoblash resurslari kerak
bo'ladi.
Signal tahlili
Ovoz to'lqinlar bo'ylab tarqaladi, ular to'lqin tarqalayotgan muhitda
tebranishlar orqali tarqaladi. Muhit yo'q, tovush ham yo'q. Demak,
tovush kosmosda tarqalmaydi. Quyida nutq signallarini tahlil qilishning
turli usullari keltirilgan:
 Furye o'zgartirish
 Tezkor Furye o'zgartirishi
 Spektogramma
Nega biz signallarni tahlil qilish uchun Furye transformatsiyasidan
foydalanamiz?
Furye o'zgarishlari tovush to'lqinini tahlil qilish uchun ishlatiladi,
chunki ular murakkab signalni, masalan, tovush to'lqinini oddiyroq
sinusoidal signallarning yig'indisi sifatida ko'rsatishga imkon beradi. Bu
filtrlash yoki siqish kabi vazifalar uchun foydali bo'lishi mumkin bo'lgan
umumiy ovoz to'lqinini tashkil etuvchi individual chastota
komponentlarini tushunish va tahlil qilish imkonini beradi. Bundan
tashqari, Furye transformatsiyasi tovush to'lqinining chastota tarkibini
vaqt sohasida tahlil qilish uchun ishlatilishi mumkin, bu ma'lum
chastotalar mavjudligini aniqlash yoki tovush balandligini aniqlash kabi
vazifalar uchun foydali bo'lishi mumkin.
Fourier Transfrom
Ovozli signal - bu muhitda bezovtalik sifatida birga tarqaladigan bir
nechta yagona chastotali tovush to'lqinlaridan tashkil topgan murakkab
signal. Ovoz yozilganda, biz faqat bir nechta to'lqinlarning
amplitudasini ushlaymiz.
Furye transformatsiyasi - bu signalni uning tarkibiy chastotalariga
ajratishi mumkin bo'lgan matematik tushuncha. U nafaqat signaldagi
chastotalarni, balki signaldagi har bir chastotaning kattaligini ham
beradi
Tezkor Furye o'zgartirish
Bu berilgan ketma-ketlikning Diskret Furye konvertatsiyasini
hisoblaydigan matematik algoritmdir. Fourier Transform (FT) va Fast
Furier Transform (FFT) o'rtasidagi yagona farq shundaki, FT doimiy
signalni, FFT esa diskret signalni kirish sifatida ko'rib chiqadi.
DFT uzluksiz signal uchun FT kabi ketma-ketlikni (diskret signal)
uning chastotasi tarkibiy qismlariga aylantiradi. Bizda uzluksiz audio
signaldan namuna olingan amplitudalar ketma-ketligi mavjud. DFT yoki
FFT algoritmi bu vaqt-domen diskret signalini chastota-domenga
aylantirishi mumkin.
2-rasm.Spektrogramma.Berilgan signal chastotalarining vaqt bilan
vizual ifodalanishi spektrogramma deb ataladi.
3-Rasm.Spektrogramma tasviri syujeti - bir o'q vaqtni, ikkinchi o'q
chastotalarni, ranglar esa ma'lum bir vaqtda kuzatilgan chastotaning
kattaligini (amplitudasini) ifodalaydi.Yorqin ranglar kuchli chastotalarni
ifodalaydi. Oldingi FFT sxemasiga o'xshab, (0–1kHz) gacha bo'lgan
kichikroq chastotalar kuchli (yorqin).
Nutqda qo'llaniladigan Yashirin Markov modeli
Yashirin Markov modeli Markov jarayoniga asoslangan holda
ishlaydi, Markov zanjiri so'zlar yoki tovushlar ketma-ketligi ehtimolini
modellashtirish uchun nutqni aniqlashda ishlatiladigan matematik
modeldir. Bu ma'lum bir so'z yoki tovushning ehtimoli oldingi so'z yoki
tovushlarga emas, balki faqat ketma-ketlikdagi oldingi so'zlarga yoki
tovushlarga bog'liq degan taxminga asoslanadi.
4-Rasm
Birinchi tartibli Markov zanjiri keyingi holat faqat joriy holatga
bog'liq deb taxmin qiladi. Keyingi holatni bashorat qilish uchun u boshqa
oldingi shtatlarga bog'liq bo'lmaydi.Ko'pgina ML tizimlarida hamma
holatlar kuzatilmaydi va biz ularni yashirin holatlar yoki ichki holatlar
deb ataymiz.Aytaylik, bizda turli ma'ruzachilar tomonidan aytiladigan
"salom" va "dunyo" so'zlarini o'z ichiga olgan nutq namunalari to'plami
mavjud. Biz HMM-ga asoslangan ASR tizimini ushbu ikki so'zni tanib
olish uchun o'rgatmoqchimiz.Birinchidan, biz nutq namunalarini bir
so'zni boshqasidan ajrata oladigan eng kichik tovush birligi bo'lgan
fonemalar ketma-ketligiga bo'lishimiz kerak. Masalan, "salom" so'zini /h/
/ɛ/ /l/ /o/ fonemalariga bo'lish mumkin.Keyinchalik, har bir so'z uchun
fonemalarga mos keladigan holatlar va kuzatuvlar bo'yicha ehtimollik
taqsimoti bilan HMM yaratamiz. Misol uchun, "salom" so'zi uchun HMM
har bir fonema uchun bittadan beshta holatga ega bo'ladi va har bir
holatdagi kuzatuvlar uchun ehtimollik taqsimoti ma'lumotlar to'plamidan
baholanadi.
HMMlar o'qitilgandan so'ng, biz ulardan nutqni tanib olish uchun
foydalanishimiz mumkin. Yangi nutq namunasini hisobga olgan holda,
biz har bir HMM uchun berilgan namunaning ehtimolini hisoblaymiz va
eng yuqori ehtimolga ega HMM tan olingan so'z hisoblanadi.
Bu misolda kuzatish ketma-ketligi nutq signalining tovush balandligi,
energiya va spektral tarkib kabi akustik-prozodik xususiyatlari to‘plami
bo‘lgan xususiyat vektorlari ketma-ketligiga aylantiriladi. HMM ushbu
xususiyat vektorlari yordamida o'qitiladi.
Ichki holat berilgan kuzatilishi mumkin bo'lgan narsani kuzatish
ehtimoli emissiya ehtimoli deb ataladi. Bir ichki holatdan ikkinchisiga
o'tish ehtimoli o'tish ehtimoli deb ataladi.
Xususiyatlarni ajratib olish: MFCC vektorlari
MFCC - bu nutq va audioni qayta ishlashda keng qo'llaniladigan
xususiyatlarni ajratib olish usuli. MFCClar ovozning spektral
xususiyatlarini nutqni aniqlash va musiqa tahlili kabi turli xil mashina
o'rganish vazifalari uchun juda mos keladigan tarzda ifodalash uchun
ishlatiladi.
Oddiyroq qilib aytganda, MFCClar tovush signalining quvvat
spektrining shaklini aks ettiruvchi koeffitsientlar to'plamidir. Ular
birinchi navbatda diskret Furye transformatsiyasi (DFT) kabi texnikadan
foydalangan holda xom audio signalni chastota domeniga aylantirish va
keyin ovoz chastotasini inson eshitish qobiliyatini taxmin qilish uchun
mel-shkalasini qo'llash orqali olinadi. Nihoyat, sepstral koeffitsientlar
mel-miqyosli spektrdan hisoblanadi.
MFCClar ayniqsa foydalidir, chunki ular kamroq ahamiyatli
ma'lumotlarni tashlab, inson nutqini idrok etish uchun muhim bo'lgan
audio signal xususiyatlarini ta'kidlaydi. Bu ularni ma'ruzachini aniqlash,
his-tuyg'ularni aniqlash va nutqni matnga aylantirish kabi vazifalar uchun
samarali qiladi.
5-rasm.A/D konvertatsiyasi:
Ushbu bosqichda biz audio signalimizni analogdan raqamli formatga
8kHz yoki 16kHz namuna chastotasi bilan aylantiramiz.
5-rasm.Signallar va ularni turlari, ko’rinishlari
Oldindan urg'u yuqori chastotada energiya hajmini oshiradi. Unli
tovushlar kabi ovozli segmentlar uchun audio signalning chastota
domeniga qaraganimizda, yuqori chastotadagi energiya past
chastotalardagi energiyadan ancha kam ekanligi kuzatiladi. Yuqori
chastotalarda energiyani kuchaytirish telefonni aniqlash aniqligini
oshiradi va shu bilan modelning ishlashini yaxshilaydi.Preemphasis
quyida keltirilgan birinchi darajali yuqori o'tkazgichli filtr orqali amalga
oshiriladi.Preemfazadan oldin va keyin 'aa' unlisi uchun audio signalning
chastota sohasi quyida keltirilgan
Oynalash (windowing)
MFCC texnikasi nutqdagi telefonlarni aniqlash uchun ishlatilishi
mumkin bo'lgan audio signalning xususiyatlarini ishlab chiqishga
qaratilgan. Ammo berilgan audio signalda juda ko'p telefonlar bo'ladi,
shuning uchun biz audio signalni har bir segmentning kengligi 25 ms
bo'lgan va quyidagi rasmda ko'rsatilganidek, signal bir-biridan 10 ms
masofada bo'lgan turli segmentlarga ajratamiz. O'rtacha bir kishi 4 ta
telefon bilan sekundiga uchta so'zni gapiradi va har bir telefonda uchta
holat bo'ladi, natijada sekundiga 36 holat yoki har bir holat uchun 28 ms
bo'ladi, bu bizning 25 ms oynamizga yaqin.
Har bir segmentdan 39 ta xususiyatni ajratib olamiz. Bundan tashqari,
signalni sindirish paytida, agar biz uni signalning chetlarida to'g'ridanto'g'ri kesib tashlasak, amplitudaning chekkalarida keskin pasayishi
yuqori chastotali domenda shovqin hosil qiladi. Shunday qilib,
to'rtburchaklar oyna o'rniga biz yuqori chastotali mintaqada shovqin
yaratmaydigan signalni kesish uchun Hamming/Hanning oynalaridan
foydalanamiz.
DFT (Diskret Furye transformatsiyasi):
Biz dft transformatsiyasini qo'llash orqali signalni vaqt domenidan
chastota domeniga aylantiramiz. Ovozli signallar uchun chastota
domenida tahlil qilish vaqt domeniga qaraganda osonroq.
Mel-filtr banki:
Bizning quloqlarimiz tovushni qanday qabul qilishlari mashinalar
tovushni qanday qabul qilishidan farq qiladi. Bizning quloqlarimiz yuqori
chastotaga qaraganda past chastotada yuqori aniqlikka ega. Shunday qilib,
agar biz 200 Gts va 300 Gts chastotalarda tovushni eshitadigan bo'lsak,
biz uni 1500 Gts va 1600 Gts chastotali tovushlar bilan solishtirganda
osongina farqlashimiz mumkin, garchi ikkalasi ham ular orasida 100 Gts
farq bo'lsa ham. Holbuki, mashina uchun ruxsat barcha chastotalarda bir
xil. Ta'kidlanishicha, inson eshitish xususiyatini xususiyatlarni ajratib
olish bosqichida modellashtirish modelning ishlashini yaxshilaydi.
Shunday qilib, biz mel shkalasidan foydalanib, haqiqiy chastotani
odamlar sezadigan chastotaga moslashtiramiz. Xaritani tuzish formulasi
quyida keltirilgan.
6-rasm.Xaritani tuzish formulasi
Loglarni qo'llash:
Odamlar past energiya bilan solishtirganda yuqori energiyada audio
signal energiyasining o'zgarishiga kamroq sezgir. Jurnal funktsiyasi ham
shunga o'xshash xususiyatga ega, kirishning x past qiymatida log
funktsiyasining gradienti yuqori bo'ladi, lekin kirishning yuqori
qiymatida gradient qiymati kamroq bo'ladi. Shunday qilib, biz inson
eshitish tizimini taqlid qilish uchun Mel-filtr chiqishiga logni qo'llaymiz.
IDFT:
Ushbu bosqichda biz oldingi bosqichdagi chiqishni teskari
o'zgartirishni amalga oshiramiz. Nega biz teskari o'zgarishlarni amalga
oshirishimiz kerakligini bilishdan oldin, avvalo, odamlar tomonidan
qanday qilib tovush chiqarilishini tushunishimiz kerak.
Ovoz aslida glottis tomonidan ishlab chiqariladi, bu nafas olish
yo'llarida va tashqarida havo oqimini boshqaradigan valfdir. Glottisdagi
havoning tebranishi tovush hosil qiladi. Tebranishlar harmonikada sodir
bo'ladi va hosil bo'lgan eng kichik chastota asosiy chastota deb ataladi va
qolgan barcha chastotalar asosiy chastotaga ko'paytiriladi. Hosil bo'lgan
tebranishlar ovoz bo'shlig'iga o'tadi. Ovoz bo'shlig'i til va boshqa
artikulyarlarning holatiga qarab, chastotalarni tanlab kuchaytiradi va
namlaydi. Har bir ishlab chiqarilgan tovush til va boshqa
artikulyatorlarning o'ziga xos pozitsiyasiga ega bo'ladi.
Quyidagi rasmda turli telefonlar uchun ovoz bo'shlig'ining uzatish
funktsiyasi ko'rsatilgan.
7-rasm.Quyidagi rasmda tovushlar uchun ovoz bo'shlig'ining uzatish
funktsiyasi ko'rsatilgan.
Vaqt va chastota domenidagi davrlar o'zgarishlardan keyin teskari
bo'lishini unutmang. Shunday qilib, chastota domenining eng past
chastotali asosiy chastotasi vaqt sohasidagi eng yuqori chastotaga ega
bo'ladi.
Eslatma: Signalning kattaligi logining teskari qismi sepstrum deb ataladi.
Quyidagi rasmda idft operatsiyasidan oldin va keyin signal namunasi
ko'rsatilgan.
8-rasm.Rasmdagi eng o'ngdagi eng yuqori chastota asosiy chastota bo'lib,
u balandlik haqida ma'lumot beradi va eng o'ngdagi chastotalar telefonlar
haqida ma'lumot beradi. Biz asosiy chastotani bekor qilamiz, chunki u
telefonlar haqida hech qanday ma'lumot bermaydi
MFCC modeli idft operatsiyalarini qo'llaganidan keyin signalning
dastlabki 12 koeffitsientini oladi. 12 koeffitsient bilan bir qatorda, u
xususiyat sifatida signal namunasining energiyasini oladi. Bu telefonlarni
aniqlashga yordam beradi. Namuna energiyasining formulasi quyida
keltirilgan.
9-rasm.Quyidagi rasmda tovushlar uchun ovoz bo'shlig'ining uzatish
funktsiyasi ko'rsatilgan
So'z xatosi darajasi baholash
Speech-to-Text (STT) texnologiyasining tez rivojlanayotgan
dunyosida ongli tanlov qilish juda qiyin bo'lib tuyulishi mumkin.
Shunga qaramay, loyihangizning muvaffaqiyati ushbu muhim qarorga
bog'liq.
STT modelini baholashda e'tiborga olinadigan asosiy omillardan biri
bu Word Error Rate (WER). WER - bu STT tizimi tomonidan ishlab
chiqarilgan transkripsiyalarning aniqligini aniqlash uchun ishlatiladigan
ko'rsatkich.
Asosiy xulosalar:
 WER STT modeli ishlashining muhim o'lchovidir.
 WERni hisoblashda normallashtirish usullarini va ular bilan bog'liq
muammolarni tushuning.
 Turli baholash usullari tufayli xizmatlarni tegishli test to'plamidan
foydalangan holda solishtirish juda muhimdir.
 Turli tillar uchun WER hisobi har xil, chunki ular o'ziga xos
lingvistik xususiyatlar va talaffuzlarni namoyish etadi.
 WERni qanday o'lchashni o'rganing va bizning kalkulyatorimiz
yordamida o'z baholaringizni o'tkazing.
WER 0 dan cheksizgacha bo'lishi mumkin. WER 0 ga qanchalik
yaqin bo'lsa, shuncha yaxshi. WER ko'pincha foiz sifatida ham
ifodalanadi. Odatda u 100 ni ko'paytirish orqali hisoblanadi. Masalan,
0,15 WER 15% sifatida ham ifodalanishi mumkin.
WER muhim, chunki u quyidagilarni ta'minlaydi:
Ishlash ko'rsatkichi: Bu ASR tizimi nutqni matnga qanchalik yaxshi
transkripsiya qilishining ob'ektiv o'lchovini beradi.
Taqqoslash: Bu turli xil ASR tizimlari yoki tizim versiyalari o'rtasida
taqqoslash imkonini beradi.
Axborot nazariyasi, tilshunoslik va kompyuter fanida Levenshteyn
masofasi ikki ketma-ketlik orasidagi farqni o'lchash uchun qator
ko'rsatkichidir. Ikki so'z orasidagi Levenshtein masofasi bir so'zni
boshqasiga o'zgartirish uchun zarur bo'lgan bitta belgidan iborat
tahrirlarning (qo'shish, o'chirish yoki almashtirish) minimal soni. U 1965
yilda metrikani aniqlagan sovet matematigi Vladimir Levenshteyn
sharafiga nomlangan.
Levenshtein masofasini tahrirlash masofasi deb ham atash mumkin,
garchi bu atama umumiy ravishda tahrirlash masofasi deb nomlanuvchi
masofa o'lchovlarining kattaroq oilasini ham bildirishi mumkin. Bu juft
qatorlarni tekislash bilan chambarchas bog'liq.
Xulosa
Bu davrning uchinchi yangiligi HMM ning yuksalishi edi. Yashirin
Markov mod-els 1972 yilda ikkita laboratoriyada mustaqil ravishda
nutqqa qo'llanilganga o'xshaydi.Bitta ariza statistiklarning, xususan,Baum
va uning hamkasblarining ishlaridan kelib chiqdi.Prinstondagi Mudofaa
tahlillari institutida HMM va ularni qo'llash bo'yicha turli bashorat
muammolari (Baum va Petri, 1966; Baum va Eagon, 1967). Jeyms
Beyker bu ishni bilib oldi va algoritmni nutqni qayta ishlashga qo'lladi
(Beyker, 1975) CMUda aspiranturada ishlagan. Mustaqil ravishda,
Frederik Jelinek, Robert Merser va Lalit Bahl (axborot-nazariy moddada
olib borgan tadqiqotlaridan kelib chiqqan holda) Shennon (1948) ishidan
ta'sirlangan) IBMda nutqqa HMM qo'llagan. Tomas J. Watson tadqiqot
markazi (Jelinek va boshqalar, 1975). IBM va Beyker tizimlari Temalar
juda o'xshash edi, ayniqsa tasvirlangan Bayes ramkasidan foydalanishda
ushbu bobda. Erta farqlardan biri dekodlash algoritmi edi; Beykerning
ajdahosi tizim Viterbi (dinamik dasturlash) dekodlashdan foydalangan,
IBM tizimi esa qo'llanilgan Jelinekning stekni dekodlash algoritmi
(Jelinek, 1969). Keyin Beyker IBM guruhiga qo'shildi Dragon Systems
nutqni aniqlash kompaniyasini yaratishdan oldin qisqa vaqt davomida.
The Nutqni aniqlashga HMM yondashuvi bu sohada to'liq hukmronlik
qiladi asr oxiriga kelib: haqiqatan ham IBM laboratoriyasi barqarorlikni
kengaytirishda harakatlantiruvchi kuch edi. tabiiy tilni qayta ishlashning
tistik modellari, shu jumladan, rivojlanishi sinfga asoslangan Ngrammalar, HMM-ga asoslangan nutq qismlarini belgilash, statistik
mashina
tarjimasi
va
baholash
ko'rsatkichi
sifatida
entropiya/chalkashlikdan foydalanish.
Foydalanilgan adabiyotlar va internet saytlari
1.An Introduction to Natural Language Processing, Computational
Linguistics, and Speech Recognition Second Edition Daniel Jurafsky
2.https://www.analyticsvidhya.com/blog/2021/06/mfcc-technique-forspeech-recognition/
3.https://www.scaler.com/topics/nlp/architecture-of-automaticspeech-recognition/
4.https://medium.com/neuralspace/word-error-rate-101-your-guide-tostt-vendor-evaluation-5b68072fcbf7
Download