Кластеризацияга асосланган аномалияларни қидириш усуллари. • Кириш 1. Тушунчаларни белгилар бўйича умумлаштириш масаласи 2. Аномалияни аниқлаш усулларининг классификацияси Тафаккурни моделлаштирувчи тизимларда умумлаштириш мавжуд далилларни тушунтирувчи ва янгиларини тушунтириш, таснифлаш ёки башорат қила оладиган билим олиш жараёни тушунилади. Умуман олганда, умумлаштириш вазифаси Миxалский томонидан қуйидагича шакллантирилган: кузатувлар (фактлар) F мажмуи, олинган гипотеза H тури учун талаблар ва тахминлар мажмуи ва мавзу майдони хусусиятлари ҳақида билим, шу жумладан, асосий билим ва тахминлар билан бирга маълум предмет сохани, билимни тасвирлаш учун танланган усул, рухсат этилган операторлар, эвристика, ва бошқалардир, гипотезани ҳосил қилиш учун H: H => F (H "тушунтиради" F) . Тақдимот шакли ва H гипотезанинг умумий кўриниши ҳамда танланган умумлаштириш моделлари умумлаштириш мақсадига ва билимларни тақдим етишнинг танланган усулига боғлиқ. Михалскийнинг фикрича, умумлаштириш моделларини танловлар ва маълумотлар бўйича умумлаштириш моделларига ажратиш мумкин. Биринчи ҳолда фактлар тўплами F ўқитиш намунаси тури бўлиб-объектлар тўплами, уларнинг ҳар бири бирор синф номи билан солиштирилади. Бу ҳолда умумлаштириш мақсади бўлиши мумкин • - формирование понятий, то есть построение по данным обучающей выборки для каждого класса максимальной совокупности его общих характеристик; • классификация, кластеризация или построение по данным обучающей выборки минимальной совокупности характеристик, которая отличала бы элементы одного класса от элементов других классов; • определение закономерности последовательного появления событий. Танловлар бўйича умумлаштириш моделларига лингвистик моделлар, алгоритм ва дастурларни автоматик синтез қилиш усуллари киради. Маълумотларни умумлаштириш моделларида фактлар синфлари бўйича дастлабки бўлиниши йўқ. Бу ерда қуйидаги мақсадлар қўйилиши мумкин: • бу фактларни умумлаштирувчи гипотезани олиш; • кузатилган маълумотлар мажмуи бўйича тасвирларни ажратиш, маълумотларни хусусиятлар бўйича гуруҳлаш; • кузатилган маълумотлар мажмуини тавсифловчи қонуниятларни ўрнатиш. Ўқитиш танловига кирган объектнинг умумий кўринишини тахминлар ва билимларни тақдим етиш усулига кўра умумлаштириш усуллари аломатлар ва структуравий-мантиқий (концептуал) усулларга бўлинади. • Биринчи ҳолда ўқув танловининг объекти билвосита аломатларнинг қийматлари мажмуи сифатида намоён бўлади. Умумлаштириш ва таниб олиш усуллари сифат ва миқдорий аломатлар учун фарқланади. Умумлаштиришнинг структуравиймантиқий усуллари ёрдамида формал-мантиқий тизимларда бу фактлардан умумий оқибатлар келтириб чиқариш индуктив хулоса чиқариш дейилади. Агар H нинг гипотезасини чиқариш қоидаси F фактларини назарда тутса индуктив дейилади, агар H ҳақиқийлигидан F нинг ҳақиқийлиги келиб чиқади, лекин тескариси тўғри эмас. • Структура-мантиқий усулларнинг асосий хусусияти, аломатларни ҳисобга оладиган усулларидан фарқли ўлароқ, таълим намуналарида ички мантиқий тузилишга ега бўлган объектлардан фойдаланишдир. Бундай объектларга ҳодисалар кетмакетлиги, иерархик ташкилэтилган тармоқлар, алгоритмик ва дастурлаш схемалари бўлиши мумкин. Аломатларни тушунчалар бўйича умумлаштириш масаласи • Аввало, индуктив боғлиқликларни қуриш билан боғлиқ барча мумкин бўлган вазифалардан индуктив концепцияни шакллантириш вазифалари деб аталадиган бир қатор вазифаларни белгилаймиз; бу инсоннинг муайян концепциянинг кўплаб мисолларини қамраб олган тавсифлар бериш қобилиятини моделлаштирувчи вазифалардир. Индуктив тушунчанинг шаклланиш жараёни инсоннинг тушунчанинг алоҳида мисоллар тавсифлари орасида тавсифларнинг айрим умумий ёки характерли бўлакларини ажрата олиш, тушунчанинг аниқ мисолларига хос кичик, аҳамиятсиз хусусиятлардан халос бўлиш қобилиятига асосланади. Бундай муаммони умумлаштириш масаласи деб атаймиз. • Умумлаштириш, қоидага кўра, битта обект о ни ёки маълум обектлар тўпламини Они ҳисобга олишдан ушбу тўпламга хос хусусиятларнинг қийматлари ўртасидаги муносабатларни акс еттирувчи ва қандайдир таниб олиш қоидаси ёрдамида унга тегишли бўлмаган обектлар ва обектларни ажратиш учун етарли бўлган умумлашган тушунча D ни ҳисобга олишга ўтишни назарда тутади. • Умумлаштириш жараёни машинали ўқитиш тушунчаси билан чамбарчас боғлиқ Ахборот хавфсизлигида қўлланиладиган аномалияни аниқлаш усуллари • Рухсатсиз киришларни аниқлаш тизимлари . Кириш дганда компютер тизимига ёки тармоққа рухсатсиз кириш ёки уларни рухсатсиз бошқариш (асосан Internet орқали) фактларини англатади. Рухсатсиз киришларни аниқлаш тизимлари бундай далилларни аниқлаш учун мўлжалланган ва компютер тизимининг хавфсизлигини бузиши мумкин бўлган зарарли фаолиятнинг айрим турларини аниқлаш учун ишлатиладиган дастурий таъминот ва/ёки аппарат воситаларидир. • Бундай фаолият заиф хизматларга қарши тармоқ ҳужумлари, имтиёзларни оширишга қаратилган ҳужумлар, муҳим файлларга рухсатсиз кириш, шунингдек зарарли дастурий таъминот (компютер вируслари, троянлар ва қуртлар) ҳаракатларини ўз ичига олади. Бу мавзу кулами мос равишда маълумотларнинг катта миқдорда эканлиги билан характерланади, аномалия аниқлаш усуллари кичик ҳисоблаш мураккаблигига эга бўлиши ва кўп ҳолларда кирувчи маълумотларни жуда тез қайта ишлаши керак; • фрод (инглиз fraud-фирибгарлик, сохталаштириш): ахборот технологиялари соҳасида фирибгарликни бир тури, хусусан, рухсатсиз ҳаракатлар ва алоқа тармоқларида ресурслар ва хизматлардан рухсатсиз фойдаланиш, банк дебет ва кредит карталари билан фирибгарлик ҳаракатлари; Классификация методов обнаружения аномалий • Аномалияни аниқлаш усуллари қуйидаги тоифаларга бўлинади. Яқин қўшничилик усули асосида аномалияни аниқлаш усуллари қуйидаги тахминни қўллайди: объектларнинг нормал нусхалари яқин жойлашган, аномалиялар эса яқин қўшниларидан анча узоқ масофада жойлашган. Бу тоифадаги усуллардан фойдаланиш учун обектлар орасидаги масофани аниқловчи метрик ёки функция кўрсатилиши зарур. Масофа ёки ўхшашлик ўлчови турли йўллар билан ҳисобланиши мумкин-масалан, узлуксиз атрибутлар учун Евклид масофа одатда ишлатилади; дискрет атрибутлар учун ўхшашлик коэффициенти ёки бошқа, мураккаб масофа ўлчамлари қўлланилади;кўп атрибутли маълумотлар учун уларнинг ҳар бири орасидаги масофа ҳисоблаб чиқилади ва натижалар бирлаштирилади. Икки гурух усулларга ажратилади: • к-га яқин қўшнисигача бўлган масофадан фойдаланиш; • ҳар бир объект учун нисбий зичликдан фойдаланиш. Бундай усулларнинг афзалликларига маълумотларни дастлаб эксперт томонидан бирон-бир синфга тайинламаслик кераклиги киради - булар маълумотларга асосланган бошқариш усуллар бўлиб, маълумотларнинг табиати ва хусусиятлари ҳақида априори тахминлар қилинмайди. Шунга қарамай, тренингда мутахассиснинг иштироки ҳам аномалияни аниқлаш сифатини ошириши мумкин. Кластерлашга асосланган аномал қидирув усуллари. • Хар бир танлов объектлар тўпламини, кичик ухшаш тўпламларга ажратилиши кластерлаш дейилади. Ушбу усуллар синфини қўллашда қуйидаги тахминлардан бирига таянилади. • нормал объектлар кластерга тегишли, аномал бўлганлар йўқ; • нормал объектлар кластер марказига яқин жойлашади, аномал объектлар марказдан узоқда жойлашади; • нормал объектлар катта, зич кластерларга, аномалиялар эса кичик ва сийрак кластерларга тегишли бўлади. • Кластерлашга асосланган усуллар обектларга тегишли бўлган кластер ҳақидаги маълумотлар асосида обектларга бўлган масофани бахолайди, энг яқин қўшничилик усули эса ҳар бир обектнинг маҳаллий муҳитидан фойдаланади. • Бу методлар синфининг афзалликлари ўқитувчисиз ўқитиш имкониятидир. Использование набора данных • Моделирование процесса обнаружения аномалий можно проведит на данных из репозиториев UCR Time Series Data Mining Archive, UC Irvine Repository. Также использовать данные, собранные с помощью специальных систем анализа трафика при передаче файлов по различным протоколам (набор данных «трафик»). Маълумотлар тўпламидан фойдаланиш • "трафик" dataset. "Трафик" - турли шароитларда (бир неча протоколлар орқали бир неча файлларни бир вақтнинг ўзида узатиш, шу жумладан ftp протоколи орқали файл узатиш + давомида трафикни таҳлил қилиш асосида олинган маълумотлар. • Маълумотларни олиш учун турли шароитларда турли протоколлар ёрдамида икки компютер ўртасида тармоқ орқали маълумотлар узатиладиган махсус стенд йиғилиши талаб этилади. Фақат узатилаётган маълумотлар пакетининг узунлиги қайд этилади. Бор бўлса ҳам тескари узатиш қайд этилмайди. Фиксирланган маълумотлар пакетини узатилишини мисол тариқасида кўриб чиқамиз. • NO. Time Source Destination Protocol Info 4339 23.07 1158 10.10.10.50 10.10.10.100 FTP-DATA FTP Data: 1448 bytes 5 Frame 4339 (1514 bytes on wire, 1514 bytes captured) Ethernet Dst: II, Src: 00:27:0e:2d:06:df (00:27:0e:2d:06:df), 00:27:0e:2d:06:17 (00:27:0e:2d:06:17) Internet Protocol, Src: 10.10.10.50 (10.10.10.50), Dst: 10.10.10.100 (10.10.10.100) Transmission Control Protocol, Sro Port: 59022 (59022), Dst Port: 9680 (9680), Seq: 288153, Ack: 1, ben: 1448 FTP Data • Бу ерда 10.10.10.50 (порт 59022) IP – адресли компьютердан 10.10.10.100 (порт 9680) IP-адресли компьютерга узатилади. Пакет номери 4339, узатиш бошлангандан сўнг қабул қилиш вақти 23.07.21 58 с, пакетда маълумотлар узатилмоқда (хизматда фойдаланадиган эмас), пакет узунлиги 1448 байт. Узатиш FTPпротоколи асосида амалга оширилган. Маълумотларни узатишнинг қуйидаги вариантлари текширилган: • FTP (эталон) протоколи бўйича узатиш; • Бир вақтнинг ўзида FTP ва ping (FTP- трафик тахлил қилинган) протоколлари асосида узатиш; • Бир вақтнинг ўзида FTP ва UDP (FTP-трафик тахлил қилинган) протоколлари асосида узатиш. • Тармоқ орқали маълумотлар узатиш ҳақида бундай маълумотларга эга бўлиш, маълумотлар узатишда "шубҳали" эканлигини аниқлаш талаб этилади, бу тармоқ инфратузилмасининг мумкин бўлган муросасини, дастурий таъминот ва/ёки аппарат закладкаларни мавжудлигини кўрсатиши мумкин. • Тест маълумотлари сифатида бошқа қаторларни махсус ҳосил қилинган вақтли кетма-кетлик да узатиладиган маълумотлардан фойдаланилади. UCR Time Series Data Mining Archive дан маълумотлар тўплами • Малумотлар туплами «цилиндр-колоколворонка» («cylinder-bell-funnell», «CBF»), номига сифатида, у шартли "цилиндрли", "қўнғироқ", "воронка« деб номланган вақтли қаторларнинг кетма-кет, уч хил синфларни ўз ичига олади. Бу вақт қаторлари билан ишлайдиган алгоритмларни синашда кенг қўлланиладиган таниқли маълумотлар тўплами • "Цилиндр" синфига мансуб вақтли қаторлар графикда тепаликнинг мавжудлиги билан характерланади, ундан олдин параметр қийматининг кескин ошиши, ундан кейин эса кескин пасайиши кузатилади. "Қўнғироқ" синфи қийматнинг вақт моментидан аста-секин ўсишига мос келади, ундан кейин қийматнинг кескин пасайиши кузатилади. Воронка синфи қиймати кескин сакраш билан характерланади, шундан кейин аста-секин пасайиши кузатилади. Вақт қаторлари-бу синфларнинг типик вакиллари расмда кўрсатилган Цилиндр Колокол Воронка Keling, jadvalda keltirilgan vaziyatlar to'plamini ko'rib chiqaylik. Jadvaldagi vaziyatlar jarayonlarning normal borishini tavsiflaydi, oxirgi ustun - vaziyat sinfi. Har bir Sit1-Sit9 holati, ilgari tasvirlangan silindrli qo'ng'iroq-voronka ma'lumotlar bazasidan misol sifatida olingan sinflardan biriga tegishli. Qisqartirish uchun biz sinflarni belgilaymiz CY, BE va FU (cylinder цилиндр, bell - колокол, funnel - воронка • Jadvaldagi vaziyatlarga asoslanib, bitta sinfda bo'lgani kabi, jarayonlarning "normal" yo'nalishini tavsiflaydigan va har bir holat uchun "normal" yoki "g'ayritabiiy" ekanligini aniqlaydigan modelni yaratish kerak. . Agar vaziyat "normal" deb tasniflangan bo'lsa, u qaysi sinfga tegishli ekanligini aniqlash kerak. Sinf odatda ob'ektning ishlash rejimiga mos keladi. Bunday holda, biz oldimizda vaqt ketma -ketligidagi anomaliyalarni aniqlash vazifasi turibdi, o'quv majmuasida "oddiy holatlar" deb e'lon qilingan bir nechta sinflarning misollari mavjud. Bu, masalan, ikkita sinfga tegishli bo'lgan vaqt ketma -ketligi bo'lishi mumkin: "silindr" va "qo'ng'iroq". t Сит1 Сит2 Сит3 Сит4 Сит5 Сит6 Сит7 Сит8 Сит9 0 1 2 3 4 5 6 7 8 9 -1.07 -0.13 0.85 0.96 0.81 0.84 -0.08 -1.01 -0.90 -1.13 -0.72 -0.70 1.25 1.23 1.27 0.03 -0.76 -0.71 -0.71 -0.74 -0.94 -0.84 1.06 0.97 1.01 1.04 -0.35 -0.92 -0.83 -0.80 -0.56 -0.62 -0.19 0.64 1.45 1.39 -0.69 -0.61 -0.66 -0.62 -0.98 -0.91 -0.59 -0.53 0.30 0.80 1.25 1.41 -0.98 -0.99 -0.54 -0.44 -0.28 0.75 1.61 0.40 -0.45 -0.53 -0.38 -0.61 -0.45 1.05 1.25 0.61 -0.35 -0.50 -0.39 -0.27 -0.89 -0.28 -0.68 -0.67 1.63 1.07 0.69 0.01 -0.59 -0.70 -0.64 -0.53 -1.01 0.50 1.35 0.89 0.33 0.18 -0.34 -0.75 -0.98 -0.65 КС CY CY CY BE BE BE FU FU FU Ўқитиш.тўп.Қат. 1 Ўқитиш.тўп.Қат. 4 Ўқитиш.тўп.Қат 2 Ўқитиш.тўп.Қат 5 Ўқитиш.тўп.Қат 3 Ўқитиш.тўп.Қат 6 • Muammoning yuqoridagi formulasiga asoslanib, rasmdagi vaqt ketma -ketligini ko'rish mumkin. 1 -qator,. 2 -qator va. 6 qator bir -biriga juda o'xshash, ya'ni ular bir sinfga tegishli buni 1 -sinf deb ataymiz. • Vaqt ketma -ketligini rasmda. 3 -qator, 4 -qator va 5 -qator ham o'xshash, lekin boshqa sinfga tegishli - buni sinf 2 deb ataymiz. Qat 1 Test.tup Qat 2 Test.tup Qat3 Test.tup • Uchinchi vaqt qatori (rasm) Oldingi ikkita qatordan sezilarli farq qiladi va, albatta, mashg'ulotlar to'plamidan hech qanday qatorga "o'xshamaydi". Shu bilan birga, imtihon namunasining ushbu vaqtli ketma ketligi olingan mexanizm yoki qonun, mashg'ulotlar majmuasidan vaqtli ketma -ketlikni olish mexanizmidan farq qiladi, deb taxmin qilish mumkin. Bundan farqli o'laroq, rasmdagi vaqt qatorlari. 1 -qator va 2 -qatori anomaliya bo'lmaydi, chunki ular mashg'ulotlar majmuasidan vaqtli ketma -ketlikni ajratishga juda o'xshash. Anomaliyalarni aniqlash usuli Masalaning quyilishi: berilgan ob'ektlarning I sonli to'plami uchun IX istisnolar to'plamini olish kerak.Buning uchun I to'plamiga quyidagilar kiritiladi: 1. o'xshamaslik funktsiyasi D (Ij), Ij ⊂ I, P (I) da aniqlangan - I ning barcha kichik to'plamlari to'plami va musbat real qiymatlarga ega; • P (I) da aniqlangan quvvat funktsiyasi C (Ij), Ij ⊂ I - I ning barcha kichik to'plamlari to'plami va har qanday I1 ⊂ I, I2 ⊂ I uchun I1⊂ I2 => C (I1) ) <C (I2); • Har bir Ij⊂ I uchun hisoblangan "yumshatuvchi omil" SF (Ij) = C (I \ Ij) * (D (I) - D (I \ Ij)) Shunda IX ⊂ I, agar SF (IX) yumshatuvchi koeffitsienti maksimal bo'lsa, D va C ga nisbatan I uchun istisnolar majmui hisoblanadi. • Norasmiy ravishda, istisnolar to'plami - bu I ning eng kichik to'plami bo'lib, uning o'xshamasligiga eng ko'p hissa qo'shadi. Yumshatuvchi omil, agar Ij kichik to'plami chiqarib tashlansa, I to'plamining o'xshamasligini qanchalik kamaytirish mumkinligini ko'rsatadi. TS — ADEEP алгоритми . O'quv majmuasi uchta vaqt qatoridan iborat bo'lsin - (ularni cyl1, cyl2, су13 belgilaymiz) Ряд 1 обуч. мн-ва Ряд 2 обуч. мн-ва Ряд 3 обуч. мн-ва Shaklda ko'rsatilgan vaqt ketma -ketligi qatorini anomaliya ekanligini aniqlash kerak. (uni bel deb belgilaymiz). Подмножество Ij cyl2, cyl3, bel Фактор сглаживания 0.370713 cyl1, cyl3, bel 0.370713 cyl3, bel 0.0677333 cyl1, cyl2, bel 0.370713 cyl2, bel 0.205667 cyll, bel 0.45465 bel 0.136392 cyl1, cyl2, cyl3 0.370713 cyl2, cyl3 0.362783 cyl1, cyl3 -0.00448333 cyl3 cyl1, cyl2 -0.128708 0.03515 cyl2 0.0194417 cyl1 0.0941917 I tuplam uchun yumshatish faktorini xisoblash natijalari • Algoritmga muvofiq, I to'plami ko'rsatilgan to'rtta vaqtli ketma -ketlikdan iborat bo'ladi: I = {cyl1, cyl2, cyl3, bel]. Ij ning barcha mumkin bo'lgan kichik to'plamlari ko'rib chiqiladi (bo'sh to'plam va to'plamdan tashqari). 24-2 = 14 ta shunday kichik to'plamlar mavjud: {{cyl 1}, {cyl 2}, {cyl 3}, {bel}, {cyl 1, cyl 2}, {cyl 1, cyl 3}, {cyl 1, bel}, {cyl 2 , cyl 3}, {cyl 2, bel}, {cyl 3, bel}, {cyl 1, cyl 2, cyl 3}, {cyl 2, cyl 3, bel}, {cyl 1, cyl 3, bel}, {cyl 1, cyl 2, bel}}. Har bir kichik to'plam uchun tekislash koeffitsienti ko'rsatilgan formulalar yordamida hisoblanadi. • Bu holda, maksimal tekislash koeffitsienti (0,45465) Ix = {cyl1, bel} vaqt qatoridan iborat to'plamga ega, shuning uchun bu istisnolar to'plami. Va vaqt seriyasi istisnolar to'plamiga ({bel} ⊂ IX) kirganligi sababli, bu anomaliya. TS-ADEEP алгоритми Псевдокоди