MUHAMMAD AL-XORAZMIY NOMIDAGI TOSHKENT AXBOROT TEXNOLOGIYALARI UNIVERSITETI KOMPYUTER INJINIRINGI FAKULTETI SUN’IY INTELLEKT YO’NALISHI 223-21 TALABASI MUHAMMADALIYEV NODIRJONNING “TABIIY TILNI QAYTA ISHLASH” FANIDAN MUSTAQIL ISHI Mavzu: NUQTNI AVTOMATIK TANISH Reja: I. Kirish II. Asosiy qism 1. Nutqni aniqlash arxitekturasi 2. Nutqda qo'llaniladigan Yashirin Markov modeli 3. Xususiyatlarni ajratib olish: MFCC vektorlari 4. So'z xatosi darajasi baholash III. Xulosa IV. Foydalanilgan adabiyotlar Kirish Nutqni aniqlash vazifasining ba'zi parametrlari va san'ati holatini muhokama qilaylik. Nutqni aniqlash vazifalaridagi o'zgaruvchanlikning bir o'lchovi - lug'at hajmi. Agar biz tanib olishimiz kerak bo'lgan aniq so'zlar soni kamroq bo'lsa, nutqni aniqlash osonroq bo'ladi. Shunday qilib, ikki so'zli lug'atga ega bo'lgan vazifalar, masalan, "ha" yoki "aniqlanmadi" yoki "raqamlar" vazifasi deb ataladigan vazifada raqamlar ketma-ketligini tanib olish kabi o'n bir so'zli lug'at nisbatan oson. Boshqa tomondan, katta lug'atga ega bo'lgan vazifalar, masalan, odam-odam telefon suhbatlarini transkripsiya qilish yoki translyatsiya yangiliklarini, 64 000 yoki undan ortiq so'zli lug'atga ega bo'lgan vazifalar ancha qiyinroq. Variatsiyaning ikkinchi jihati - nutqning qanchalik ravon, tabiiy yoki suhbatdoshligi. Har bir so'z qandaydir pauza bilan o'ralgan holda ajratilgan so'zni aniqlash, so'zlar bir-biriga kirib, segmentlarga bo'linishi kerak bo'lgan doimiy nutqni tanib olishdan ko'ra osonroqdir. Uzluksiz nutq vazifalarining o'zi qiyinligi jihatidan juda farq qiladi. Masalan, odamdan mashinaga nutqni tanib olish odamdan odamga nutqqa qaraganda ancha oson bo'lib chiqadi.Ya'ni, odamlarning mashinalar bilan gaplashayotgan nutqini tanib olish, yoki o'qilgan nutqda baland ovozda o'qish (bu diktant vazifasini taqlid qiladi) yoki nutq dialog tizimlari bilan suhbatlashish nisbatan oson. Ikki kishining bir-biri bilan gaplashayotgan nutqini tanib olish, masalan, ish uchrashuvini yoki telefon suhbatini yozish uchun suhbat nutqini aniqlash ancha qiyin. Aftidan, odamlar mashinalar bilan gaplashganda, ular nutqini biroz soddalashtiradi, sekinroq va aniqroq gapiradi. Variatsiyaning uchinchi o'lchovi - bu kanal va shovqin. Tijoriy diktant tizimlari va nutqni aniqlash bo'yicha ko'plab laboratoriya tadqiqotlari yuqori sifatli, boshga o'rnatilgan mikrofonlar bilan amalga oshiriladi. Boshga o'rnatilgan mikrofonlar karnay boshi harakatlanayotganda stol mikrofonida yuzaga keladigan buzilishlarni bartaraf qiladi. Har qanday shovqin ham tan olishni qiyinlashtiradi. Shunday qilib, jim ofisda diktant qilayotgan ma'ruzachini tanib olish, shovqinli mashinada, deraza ochiq holda, shosseda gapirayotgan karnayni tanib olishdan ko'ra osonroqdir. Variatsiyaning yakuniy o'lchovi - aksent yoki spiker sinfining xususiyatlari. Ma'ruzachi standart dialektda yoki umuman tizim o'qitilgan ma'lumotlarga mos keladigan dialektda gapirayotgan bo'lsa, nutqni aniqlash osonroq. Shunday qilib, xorijiy urg'uli nutqni yoki bolalar nutqini tanib olish qiyinroq (agar tizim aynan shu turdagi nutqlarga moslashmagan bo'lmasa). Shovqin va urg'u tufayli o'zgarishi xatolik darajasini biroz oshiradi. Yapon tilidagi yoki ispan tilidagi aksent ingliz tilida so'z xatosi xuddi shu vazifani bajarayotgan ona tilida so'zlashuvchilarga qaraganda 3-4 baravar yuqori ekanligi ma’lum bo’lgan. Va 10dB SNR bilan avtomobil shovqinini qo'shish xatolik darajasini 2-4 baravar oshirishga olib kelishi mumkin. 1-rasm.2006 yilda turli vazifalar bo'yicha ASR uchun ma'lum qilingan so'z xatosi darajasi (noto'g'ri tanilgan so'zlarning %); Broadcast News va CTS uchun xatolik stavkalari maxsus mashg'ulotlar va test stsenariylariga asoslanadi va ularni to'plar soni sifatida qabul qilish kerak. Umuman olganda, bu xatolik darajasi har yili pasayadi, chunki nutqni aniqlash ko'rsatkichlari barqaror ravishda yaxshilandi. Hisob-kitoblardan biri, algoritmik takomillashtirish va Mur qonunining kombinatsiyasi tufayli so'nggi o'n yillikda (Deng va Huang, 2004) samaradorlik yiliga taxminan 10 foizga yaxshilangan. Nutqni aniqlash arxitekturasi 1-rasm.Yuqoridagi rasmda nutqni avtomatik aniqlashning umumiy arxitekturasi tasvirlangan. ASR xuddi boshqa mashinani o'rganish muammolari kabi, bu erda maqsad tovush to'lqinini nutqning asosiy birliklaridan biriga, masalan, so'zga tasniflashdir. Inson nutqi bilan bog'liq muammo shundaki, u so'zni talaffuz qilishda yuzaga keladigan ohang, balandlik va ko'tarilishda juda ko'p o'zgarishlarni o'z ichiga oladi. Bu o'zgaruvchanlikning bir qancha sabablari bor, ya'ni vokal kordlariga stress, atrof-muhit sharoitlari, mikrofon sharoitlari va boshqa ko'plab sabablar. Nutqdagi bu o'zgarishlarni aniqlash uchun Gauss aralashmasi modeli bilan Yashirin Markov modeli (HMM) kabi mashinani o'rganish algoritmlari qo'llaniladi. So'nggi yillarda chuqur neyron tarmoqlari ham qo'llanilmoqda. Nutqni tanib olishdagi qiyinchiliklar Nutqni aniqlash modellarini ishlab chiqishda bir qancha qiyinchiliklar mavjud: Yuqori aniqlikdagi modelni yaratish Til, urg‘u, sheva qamrovi Xavfsizlik va maxfiylik Xarajat va joylashtirish Yuqori aniqlik modellari Modellarni baholashda e'tiborga olish kerak bo'lgan ba'zi omillar mavjud. Bu omillar odatda yuqori aniqlikka erisha olmaslik uchun javobgardir. Odamlarning turli mintaqalaridagi nutq naqshlari va urg'ulari va bu mintaqadagi odamlar turli xil gapirish usullariga ega bo'lishi mumkin, bu esa urg'u va nutq namunalarini tanib olish uchun modelni o'rgatish juda qiyin. Agar bir nechta ma'ruzachilar mavjud bo'lsa, ular tez-tez bir-birlarini to'xtatadilar yoki bir vaqtning o'zida gapiradilar, bu hatto eng tajribali inson transkriptorlari uchun ham qiyin vazifa bo'lishi mumkin. Bundan tashqari, musiqa, suhbat va hatto shamol shovqinlari ham transkripsiyaning aniqligiga ta'sir qiladi, chunki kompyuter so'zni topish uchun tovush chaqishlaridan foydalanadi va bu boshqa tovushlar noaniqliklarga olib kelishi mumkin. Ushbu modellar tanib olishga o'rgatilgan so'z yoki iboralarni taniydi. Aniqlik uchun to'siqlarga sho'ng'ishdan oldin, Word xatolik darajasi (WER) ovozni aniqlash tizimining aniqligi va ishlashini o'lchash uchun keng tarqalgan ishlatiladigan ko'rsatkich ekanligini eslatib o'tish o'rinli bo'ladi. Xarajat va joylashtirish muammosi Nutqni aniqlash modellarini ishlab chiqish va qo'llab-quvvatlash qimmat va doimiy jarayondir. Agar nutqni aniqlash modeli turli tillar, lahjalar va urg'ularni qamrab oladigan bo'lsa, unga katta hajmdagi o'quv ma'lumotlari, etiketli ma'lumotlar va katta hisoblash resurslari kerak bo'ladi. Signal tahlili Ovoz to'lqinlar bo'ylab tarqaladi, ular to'lqin tarqalayotgan muhitda tebranishlar orqali tarqaladi. Muhit yo'q, tovush ham yo'q. Demak, tovush kosmosda tarqalmaydi. Quyida nutq signallarini tahlil qilishning turli usullari keltirilgan: Furye o'zgartirish Tezkor Furye o'zgartirishi Spektogramma Nega biz signallarni tahlil qilish uchun Furye transformatsiyasidan foydalanamiz? Furye o'zgarishlari tovush to'lqinini tahlil qilish uchun ishlatiladi, chunki ular murakkab signalni, masalan, tovush to'lqinini oddiyroq sinusoidal signallarning yig'indisi sifatida ko'rsatishga imkon beradi. Bu filtrlash yoki siqish kabi vazifalar uchun foydali bo'lishi mumkin bo'lgan umumiy ovoz to'lqinini tashkil etuvchi individual chastota komponentlarini tushunish va tahlil qilish imkonini beradi. Bundan tashqari, Furye transformatsiyasi tovush to'lqinining chastota tarkibini vaqt sohasida tahlil qilish uchun ishlatilishi mumkin, bu ma'lum chastotalar mavjudligini aniqlash yoki tovush balandligini aniqlash kabi vazifalar uchun foydali bo'lishi mumkin. Fourier Transfrom Ovozli signal - bu muhitda bezovtalik sifatida birga tarqaladigan bir nechta yagona chastotali tovush to'lqinlaridan tashkil topgan murakkab signal. Ovoz yozilganda, biz faqat bir nechta to'lqinlarning amplitudasini ushlaymiz. Furye transformatsiyasi - bu signalni uning tarkibiy chastotalariga ajratishi mumkin bo'lgan matematik tushuncha. U nafaqat signaldagi chastotalarni, balki signaldagi har bir chastotaning kattaligini ham beradi Tezkor Furye o'zgartirish Bu berilgan ketma-ketlikning Diskret Furye konvertatsiyasini hisoblaydigan matematik algoritmdir. Fourier Transform (FT) va Fast Furier Transform (FFT) o'rtasidagi yagona farq shundaki, FT doimiy signalni, FFT esa diskret signalni kirish sifatida ko'rib chiqadi. DFT uzluksiz signal uchun FT kabi ketma-ketlikni (diskret signal) uning chastotasi tarkibiy qismlariga aylantiradi. Bizda uzluksiz audio signaldan namuna olingan amplitudalar ketma-ketligi mavjud. DFT yoki FFT algoritmi bu vaqt-domen diskret signalini chastota-domenga aylantirishi mumkin. 2-rasm.Spektrogramma.Berilgan signal chastotalarining vaqt bilan vizual ifodalanishi spektrogramma deb ataladi. 3-Rasm.Spektrogramma tasviri syujeti - bir o'q vaqtni, ikkinchi o'q chastotalarni, ranglar esa ma'lum bir vaqtda kuzatilgan chastotaning kattaligini (amplitudasini) ifodalaydi.Yorqin ranglar kuchli chastotalarni ifodalaydi. Oldingi FFT sxemasiga o'xshab, (0–1kHz) gacha bo'lgan kichikroq chastotalar kuchli (yorqin). Nutqda qo'llaniladigan Yashirin Markov modeli Yashirin Markov modeli Markov jarayoniga asoslangan holda ishlaydi, Markov zanjiri so'zlar yoki tovushlar ketma-ketligi ehtimolini modellashtirish uchun nutqni aniqlashda ishlatiladigan matematik modeldir. Bu ma'lum bir so'z yoki tovushning ehtimoli oldingi so'z yoki tovushlarga emas, balki faqat ketma-ketlikdagi oldingi so'zlarga yoki tovushlarga bog'liq degan taxminga asoslanadi. 4-Rasm Birinchi tartibli Markov zanjiri keyingi holat faqat joriy holatga bog'liq deb taxmin qiladi. Keyingi holatni bashorat qilish uchun u boshqa oldingi shtatlarga bog'liq bo'lmaydi.Ko'pgina ML tizimlarida hamma holatlar kuzatilmaydi va biz ularni yashirin holatlar yoki ichki holatlar deb ataymiz.Aytaylik, bizda turli ma'ruzachilar tomonidan aytiladigan "salom" va "dunyo" so'zlarini o'z ichiga olgan nutq namunalari to'plami mavjud. Biz HMM-ga asoslangan ASR tizimini ushbu ikki so'zni tanib olish uchun o'rgatmoqchimiz.Birinchidan, biz nutq namunalarini bir so'zni boshqasidan ajrata oladigan eng kichik tovush birligi bo'lgan fonemalar ketma-ketligiga bo'lishimiz kerak. Masalan, "salom" so'zini /h/ /ɛ/ /l/ /o/ fonemalariga bo'lish mumkin.Keyinchalik, har bir so'z uchun fonemalarga mos keladigan holatlar va kuzatuvlar bo'yicha ehtimollik taqsimoti bilan HMM yaratamiz. Misol uchun, "salom" so'zi uchun HMM har bir fonema uchun bittadan beshta holatga ega bo'ladi va har bir holatdagi kuzatuvlar uchun ehtimollik taqsimoti ma'lumotlar to'plamidan baholanadi. HMMlar o'qitilgandan so'ng, biz ulardan nutqni tanib olish uchun foydalanishimiz mumkin. Yangi nutq namunasini hisobga olgan holda, biz har bir HMM uchun berilgan namunaning ehtimolini hisoblaymiz va eng yuqori ehtimolga ega HMM tan olingan so'z hisoblanadi. Bu misolda kuzatish ketma-ketligi nutq signalining tovush balandligi, energiya va spektral tarkib kabi akustik-prozodik xususiyatlari to‘plami bo‘lgan xususiyat vektorlari ketma-ketligiga aylantiriladi. HMM ushbu xususiyat vektorlari yordamida o'qitiladi. Ichki holat berilgan kuzatilishi mumkin bo'lgan narsani kuzatish ehtimoli emissiya ehtimoli deb ataladi. Bir ichki holatdan ikkinchisiga o'tish ehtimoli o'tish ehtimoli deb ataladi. Xususiyatlarni ajratib olish: MFCC vektorlari MFCC - bu nutq va audioni qayta ishlashda keng qo'llaniladigan xususiyatlarni ajratib olish usuli. MFCClar ovozning spektral xususiyatlarini nutqni aniqlash va musiqa tahlili kabi turli xil mashina o'rganish vazifalari uchun juda mos keladigan tarzda ifodalash uchun ishlatiladi. Oddiyroq qilib aytganda, MFCClar tovush signalining quvvat spektrining shaklini aks ettiruvchi koeffitsientlar to'plamidir. Ular birinchi navbatda diskret Furye transformatsiyasi (DFT) kabi texnikadan foydalangan holda xom audio signalni chastota domeniga aylantirish va keyin ovoz chastotasini inson eshitish qobiliyatini taxmin qilish uchun mel-shkalasini qo'llash orqali olinadi. Nihoyat, sepstral koeffitsientlar mel-miqyosli spektrdan hisoblanadi. MFCClar ayniqsa foydalidir, chunki ular kamroq ahamiyatli ma'lumotlarni tashlab, inson nutqini idrok etish uchun muhim bo'lgan audio signal xususiyatlarini ta'kidlaydi. Bu ularni ma'ruzachini aniqlash, his-tuyg'ularni aniqlash va nutqni matnga aylantirish kabi vazifalar uchun samarali qiladi. 5-rasm.A/D konvertatsiyasi: Ushbu bosqichda biz audio signalimizni analogdan raqamli formatga 8kHz yoki 16kHz namuna chastotasi bilan aylantiramiz. 5-rasm.Signallar va ularni turlari, ko’rinishlari Oldindan urg'u yuqori chastotada energiya hajmini oshiradi. Unli tovushlar kabi ovozli segmentlar uchun audio signalning chastota domeniga qaraganimizda, yuqori chastotadagi energiya past chastotalardagi energiyadan ancha kam ekanligi kuzatiladi. Yuqori chastotalarda energiyani kuchaytirish telefonni aniqlash aniqligini oshiradi va shu bilan modelning ishlashini yaxshilaydi.Preemphasis quyida keltirilgan birinchi darajali yuqori o'tkazgichli filtr orqali amalga oshiriladi.Preemfazadan oldin va keyin 'aa' unlisi uchun audio signalning chastota sohasi quyida keltirilgan Oynalash (windowing) MFCC texnikasi nutqdagi telefonlarni aniqlash uchun ishlatilishi mumkin bo'lgan audio signalning xususiyatlarini ishlab chiqishga qaratilgan. Ammo berilgan audio signalda juda ko'p telefonlar bo'ladi, shuning uchun biz audio signalni har bir segmentning kengligi 25 ms bo'lgan va quyidagi rasmda ko'rsatilganidek, signal bir-biridan 10 ms masofada bo'lgan turli segmentlarga ajratamiz. O'rtacha bir kishi 4 ta telefon bilan sekundiga uchta so'zni gapiradi va har bir telefonda uchta holat bo'ladi, natijada sekundiga 36 holat yoki har bir holat uchun 28 ms bo'ladi, bu bizning 25 ms oynamizga yaqin. Har bir segmentdan 39 ta xususiyatni ajratib olamiz. Bundan tashqari, signalni sindirish paytida, agar biz uni signalning chetlarida to'g'ridanto'g'ri kesib tashlasak, amplitudaning chekkalarida keskin pasayishi yuqori chastotali domenda shovqin hosil qiladi. Shunday qilib, to'rtburchaklar oyna o'rniga biz yuqori chastotali mintaqada shovqin yaratmaydigan signalni kesish uchun Hamming/Hanning oynalaridan foydalanamiz. DFT (Diskret Furye transformatsiyasi): Biz dft transformatsiyasini qo'llash orqali signalni vaqt domenidan chastota domeniga aylantiramiz. Ovozli signallar uchun chastota domenida tahlil qilish vaqt domeniga qaraganda osonroq. Mel-filtr banki: Bizning quloqlarimiz tovushni qanday qabul qilishlari mashinalar tovushni qanday qabul qilishidan farq qiladi. Bizning quloqlarimiz yuqori chastotaga qaraganda past chastotada yuqori aniqlikka ega. Shunday qilib, agar biz 200 Gts va 300 Gts chastotalarda tovushni eshitadigan bo'lsak, biz uni 1500 Gts va 1600 Gts chastotali tovushlar bilan solishtirganda osongina farqlashimiz mumkin, garchi ikkalasi ham ular orasida 100 Gts farq bo'lsa ham. Holbuki, mashina uchun ruxsat barcha chastotalarda bir xil. Ta'kidlanishicha, inson eshitish xususiyatini xususiyatlarni ajratib olish bosqichida modellashtirish modelning ishlashini yaxshilaydi. Shunday qilib, biz mel shkalasidan foydalanib, haqiqiy chastotani odamlar sezadigan chastotaga moslashtiramiz. Xaritani tuzish formulasi quyida keltirilgan. 6-rasm.Xaritani tuzish formulasi Loglarni qo'llash: Odamlar past energiya bilan solishtirganda yuqori energiyada audio signal energiyasining o'zgarishiga kamroq sezgir. Jurnal funktsiyasi ham shunga o'xshash xususiyatga ega, kirishning x past qiymatida log funktsiyasining gradienti yuqori bo'ladi, lekin kirishning yuqori qiymatida gradient qiymati kamroq bo'ladi. Shunday qilib, biz inson eshitish tizimini taqlid qilish uchun Mel-filtr chiqishiga logni qo'llaymiz. IDFT: Ushbu bosqichda biz oldingi bosqichdagi chiqishni teskari o'zgartirishni amalga oshiramiz. Nega biz teskari o'zgarishlarni amalga oshirishimiz kerakligini bilishdan oldin, avvalo, odamlar tomonidan qanday qilib tovush chiqarilishini tushunishimiz kerak. Ovoz aslida glottis tomonidan ishlab chiqariladi, bu nafas olish yo'llarida va tashqarida havo oqimini boshqaradigan valfdir. Glottisdagi havoning tebranishi tovush hosil qiladi. Tebranishlar harmonikada sodir bo'ladi va hosil bo'lgan eng kichik chastota asosiy chastota deb ataladi va qolgan barcha chastotalar asosiy chastotaga ko'paytiriladi. Hosil bo'lgan tebranishlar ovoz bo'shlig'iga o'tadi. Ovoz bo'shlig'i til va boshqa artikulyarlarning holatiga qarab, chastotalarni tanlab kuchaytiradi va namlaydi. Har bir ishlab chiqarilgan tovush til va boshqa artikulyatorlarning o'ziga xos pozitsiyasiga ega bo'ladi. Quyidagi rasmda turli telefonlar uchun ovoz bo'shlig'ining uzatish funktsiyasi ko'rsatilgan. 7-rasm.Quyidagi rasmda tovushlar uchun ovoz bo'shlig'ining uzatish funktsiyasi ko'rsatilgan. Vaqt va chastota domenidagi davrlar o'zgarishlardan keyin teskari bo'lishini unutmang. Shunday qilib, chastota domenining eng past chastotali asosiy chastotasi vaqt sohasidagi eng yuqori chastotaga ega bo'ladi. Eslatma: Signalning kattaligi logining teskari qismi sepstrum deb ataladi. Quyidagi rasmda idft operatsiyasidan oldin va keyin signal namunasi ko'rsatilgan. 8-rasm.Rasmdagi eng o'ngdagi eng yuqori chastota asosiy chastota bo'lib, u balandlik haqida ma'lumot beradi va eng o'ngdagi chastotalar telefonlar haqida ma'lumot beradi. Biz asosiy chastotani bekor qilamiz, chunki u telefonlar haqida hech qanday ma'lumot bermaydi MFCC modeli idft operatsiyalarini qo'llaganidan keyin signalning dastlabki 12 koeffitsientini oladi. 12 koeffitsient bilan bir qatorda, u xususiyat sifatida signal namunasining energiyasini oladi. Bu telefonlarni aniqlashga yordam beradi. Namuna energiyasining formulasi quyida keltirilgan. 9-rasm.Quyidagi rasmda tovushlar uchun ovoz bo'shlig'ining uzatish funktsiyasi ko'rsatilgan So'z xatosi darajasi baholash Speech-to-Text (STT) texnologiyasining tez rivojlanayotgan dunyosida ongli tanlov qilish juda qiyin bo'lib tuyulishi mumkin. Shunga qaramay, loyihangizning muvaffaqiyati ushbu muhim qarorga bog'liq. STT modelini baholashda e'tiborga olinadigan asosiy omillardan biri bu Word Error Rate (WER). WER - bu STT tizimi tomonidan ishlab chiqarilgan transkripsiyalarning aniqligini aniqlash uchun ishlatiladigan ko'rsatkich. Asosiy xulosalar: WER STT modeli ishlashining muhim o'lchovidir. WERni hisoblashda normallashtirish usullarini va ular bilan bog'liq muammolarni tushuning. Turli baholash usullari tufayli xizmatlarni tegishli test to'plamidan foydalangan holda solishtirish juda muhimdir. Turli tillar uchun WER hisobi har xil, chunki ular o'ziga xos lingvistik xususiyatlar va talaffuzlarni namoyish etadi. WERni qanday o'lchashni o'rganing va bizning kalkulyatorimiz yordamida o'z baholaringizni o'tkazing. WER 0 dan cheksizgacha bo'lishi mumkin. WER 0 ga qanchalik yaqin bo'lsa, shuncha yaxshi. WER ko'pincha foiz sifatida ham ifodalanadi. Odatda u 100 ni ko'paytirish orqali hisoblanadi. Masalan, 0,15 WER 15% sifatida ham ifodalanishi mumkin. WER muhim, chunki u quyidagilarni ta'minlaydi: Ishlash ko'rsatkichi: Bu ASR tizimi nutqni matnga qanchalik yaxshi transkripsiya qilishining ob'ektiv o'lchovini beradi. Taqqoslash: Bu turli xil ASR tizimlari yoki tizim versiyalari o'rtasida taqqoslash imkonini beradi. Axborot nazariyasi, tilshunoslik va kompyuter fanida Levenshteyn masofasi ikki ketma-ketlik orasidagi farqni o'lchash uchun qator ko'rsatkichidir. Ikki so'z orasidagi Levenshtein masofasi bir so'zni boshqasiga o'zgartirish uchun zarur bo'lgan bitta belgidan iborat tahrirlarning (qo'shish, o'chirish yoki almashtirish) minimal soni. U 1965 yilda metrikani aniqlagan sovet matematigi Vladimir Levenshteyn sharafiga nomlangan. Levenshtein masofasini tahrirlash masofasi deb ham atash mumkin, garchi bu atama umumiy ravishda tahrirlash masofasi deb nomlanuvchi masofa o'lchovlarining kattaroq oilasini ham bildirishi mumkin. Bu juft qatorlarni tekislash bilan chambarchas bog'liq. Xulosa Bu davrning uchinchi yangiligi HMM ning yuksalishi edi. Yashirin Markov mod-els 1972 yilda ikkita laboratoriyada mustaqil ravishda nutqqa qo'llanilganga o'xshaydi.Bitta ariza statistiklarning, xususan,Baum va uning hamkasblarining ishlaridan kelib chiqdi.Prinstondagi Mudofaa tahlillari institutida HMM va ularni qo'llash bo'yicha turli bashorat muammolari (Baum va Petri, 1966; Baum va Eagon, 1967). Jeyms Beyker bu ishni bilib oldi va algoritmni nutqni qayta ishlashga qo'lladi (Beyker, 1975) CMUda aspiranturada ishlagan. Mustaqil ravishda, Frederik Jelinek, Robert Merser va Lalit Bahl (axborot-nazariy moddada olib borgan tadqiqotlaridan kelib chiqqan holda) Shennon (1948) ishidan ta'sirlangan) IBMda nutqqa HMM qo'llagan. Tomas J. Watson tadqiqot markazi (Jelinek va boshqalar, 1975). IBM va Beyker tizimlari Temalar juda o'xshash edi, ayniqsa tasvirlangan Bayes ramkasidan foydalanishda ushbu bobda. Erta farqlardan biri dekodlash algoritmi edi; Beykerning ajdahosi tizim Viterbi (dinamik dasturlash) dekodlashdan foydalangan, IBM tizimi esa qo'llanilgan Jelinekning stekni dekodlash algoritmi (Jelinek, 1969). Keyin Beyker IBM guruhiga qo'shildi Dragon Systems nutqni aniqlash kompaniyasini yaratishdan oldin qisqa vaqt davomida. The Nutqni aniqlashga HMM yondashuvi bu sohada to'liq hukmronlik qiladi asr oxiriga kelib: haqiqatan ham IBM laboratoriyasi barqarorlikni kengaytirishda harakatlantiruvchi kuch edi. tabiiy tilni qayta ishlashning tistik modellari, shu jumladan, rivojlanishi sinfga asoslangan Ngrammalar, HMM-ga asoslangan nutq qismlarini belgilash, statistik mashina tarjimasi va baholash ko'rsatkichi sifatida entropiya/chalkashlikdan foydalanish. Foydalanilgan adabiyotlar va internet saytlari 1.An Introduction to Natural Language Processing, Computational Linguistics, and Speech Recognition Second Edition Daniel Jurafsky 2.https://www.analyticsvidhya.com/blog/2021/06/mfcc-technique-forspeech-recognition/ 3.https://www.scaler.com/topics/nlp/architecture-of-automaticspeech-recognition/ 4.https://medium.com/neuralspace/word-error-rate-101-your-guide-tostt-vendor-evaluation-5b68072fcbf7