Uploaded by jimm010806

Маъруза №6 Аномалияларни аниклаш

advertisement
Кластеризацияга асосланган аномалияларни
қидириш усуллари.
• Кириш
1. Тушунчаларни белгилар бўйича
умумлаштириш масаласи
2. Аномалияни аниқлаш усулларининг
классификацияси
Тафаккурни моделлаштирувчи тизимларда умумлаштириш
мавжуд
далилларни
тушунтирувчи
ва
янгиларини
тушунтириш, таснифлаш ёки башорат қила оладиган билим
олиш жараёни тушунилади. Умуман олганда, умумлаштириш
вазифаси
Миxалский
томонидан
қуйидагича
шакллантирилган: кузатувлар (фактлар) F мажмуи, олинган
гипотеза H тури учун талаблар ва тахминлар мажмуи ва
мавзу майдони хусусиятлари ҳақида билим, шу жумладан,
асосий билим ва тахминлар билан бирга маълум предмет
сохани, билимни тасвирлаш учун танланган усул, рухсат
этилган операторлар, эвристика, ва бошқалардир, гипотезани
ҳосил қилиш учун H: H => F (H "тушунтиради" F) .
Тақдимот шакли ва H гипотезанинг умумий
кўриниши
ҳамда
танланган
умумлаштириш
моделлари
умумлаштириш
мақсадига
ва
билимларни тақдим етишнинг танланган усулига
боғлиқ. Михалскийнинг фикрича, умумлаштириш
моделларини танловлар ва маълумотлар бўйича
умумлаштириш моделларига ажратиш мумкин.
Биринчи ҳолда фактлар тўплами F ўқитиш намунаси
тури бўлиб-объектлар тўплами, уларнинг ҳар бири
бирор синф номи билан солиштирилади.
Бу ҳолда умумлаштириш мақсади бўлиши мумкин
• - формирование понятий, то есть построение по данным
обучающей выборки для каждого класса максимальной
совокупности его общих характеристик;
• классификация, кластеризация или построение по данным
обучающей выборки минимальной совокупности
характеристик, которая отличала бы элементы одного
класса от элементов других классов;
• определение закономерности последовательного
появления событий.
Танловлар бўйича умумлаштириш моделларига лингвистик моделлар,
алгоритм ва дастурларни автоматик синтез қилиш усуллари киради.
Маълумотларни умумлаштириш моделларида фактлар синфлари бўйича
дастлабки бўлиниши йўқ. Бу ерда қуйидаги мақсадлар қўйилиши
мумкин:
• бу фактларни умумлаштирувчи гипотезани олиш;
• кузатилган маълумотлар мажмуи бўйича тасвирларни ажратиш,
маълумотларни хусусиятлар бўйича гуруҳлаш;
• кузатилган маълумотлар мажмуини тавсифловчи қонуниятларни
ўрнатиш.
Ўқитиш танловига кирган объектнинг умумий кўринишини тахминлар ва
билимларни тақдим етиш усулига кўра умумлаштириш усуллари
аломатлар ва структуравий-мантиқий (концептуал) усулларга бўлинади.
• Биринчи ҳолда ўқув танловининг объекти
билвосита аломатларнинг қийматлари мажмуи
сифатида намоён бўлади. Умумлаштириш ва таниб
олиш усуллари сифат ва миқдорий аломатлар учун
фарқланади. Умумлаштиришнинг структуравиймантиқий усуллари ёрдамида формал-мантиқий
тизимларда бу фактлардан умумий оқибатлар
келтириб чиқариш индуктив хулоса чиқариш
дейилади. Агар H нинг гипотезасини чиқариш
қоидаси F фактларини назарда тутса индуктив
дейилади, агар H
ҳақиқийлигидан
F нинг
ҳақиқийлиги келиб чиқади, лекин тескариси тўғри
эмас.
• Структура-мантиқий усулларнинг асосий
хусусияти, аломатларни ҳисобга оладиган
усулларидан фарқли ўлароқ, таълим
намуналарида ички мантиқий тузилишга
ега бўлган объектлардан фойдаланишдир.
Бундай объектларга ҳодисалар кетмакетлиги,
иерархик
ташкилэтилган
тармоқлар, алгоритмик ва дастурлаш
схемалари бўлиши мумкин.
Аломатларни тушунчалар бўйича умумлаштириш
масаласи
• Аввало, индуктив боғлиқликларни қуриш билан боғлиқ
барча мумкин бўлган вазифалардан индуктив
концепцияни шакллантириш вазифалари деб аталадиган
бир қатор вазифаларни белгилаймиз; бу инсоннинг
муайян концепциянинг кўплаб мисолларини қамраб олган
тавсифлар бериш қобилиятини моделлаштирувчи
вазифалардир. Индуктив тушунчанинг шаклланиш
жараёни инсоннинг тушунчанинг алоҳида мисоллар
тавсифлари орасида тавсифларнинг айрим умумий ёки
характерли бўлакларини ажрата олиш, тушунчанинг аниқ
мисолларига хос кичик, аҳамиятсиз хусусиятлардан халос
бўлиш қобилиятига асосланади. Бундай муаммони
умумлаштириш масаласи деб атаймиз.
• Умумлаштириш, қоидага кўра, битта обект о
ни ёки маълум обектлар тўпламини Они
ҳисобга олишдан ушбу тўпламга хос
хусусиятларнинг қийматлари ўртасидаги
муносабатларни акс еттирувчи ва қандайдир
таниб олиш қоидаси ёрдамида унга тегишли
бўлмаган обектлар ва обектларни ажратиш
учун етарли бўлган умумлашган тушунча D ни
ҳисобга олишга ўтишни назарда тутади.
• Умумлаштириш жараёни машинали ўқитиш
тушунчаси билан чамбарчас боғлиқ
Ахборот хавфсизлигида қўлланиладиган
аномалияни аниқлаш усуллари
• Рухсатсиз киришларни аниқлаш тизимлари . Кириш дганда
компютер тизимига ёки тармоққа рухсатсиз кириш ёки
уларни рухсатсиз бошқариш (асосан Internet орқали)
фактларини англатади. Рухсатсиз киришларни аниқлаш
тизимлари
бундай
далилларни
аниқлаш
учун
мўлжалланган ва компютер тизимининг хавфсизлигини
бузиши мумкин бўлган зарарли фаолиятнинг айрим
турларини аниқлаш учун ишлатиладиган дастурий
таъминот ва/ёки аппарат воситаларидир.
• Бундай фаолият заиф хизматларга қарши тармоқ
ҳужумлари, имтиёзларни оширишга қаратилган ҳужумлар,
муҳим файлларга рухсатсиз кириш, шунингдек зарарли
дастурий таъминот (компютер вируслари, троянлар ва
қуртлар) ҳаракатларини ўз ичига олади. Бу мавзу кулами
мос равишда маълумотларнинг катта миқдорда эканлиги
билан характерланади, аномалия аниқлаш усуллари кичик
ҳисоблаш мураккаблигига эга бўлиши ва кўп ҳолларда
кирувчи маълумотларни жуда тез қайта ишлаши керак;
• фрод (инглиз fraud-фирибгарлик,
сохталаштириш): ахборот технологиялари
соҳасида фирибгарликни бир тури, хусусан,
рухсатсиз ҳаракатлар ва алоқа
тармоқларида ресурслар ва хизматлардан
рухсатсиз фойдаланиш, банк дебет ва
кредит карталари билан фирибгарлик
ҳаракатлари;
Классификация методов обнаружения
аномалий
• Аномалияни аниқлаш усуллари қуйидаги тоифаларга бўлинади.
Яқин қўшничилик усули асосида аномалияни аниқлаш усуллари
қуйидаги тахминни қўллайди: объектларнинг нормал нусхалари
яқин жойлашган, аномалиялар эса яқин қўшниларидан анча
узоқ масофада жойлашган. Бу тоифадаги усуллардан
фойдаланиш учун обектлар орасидаги масофани аниқловчи
метрик ёки функция кўрсатилиши зарур. Масофа ёки ўхшашлик
ўлчови турли йўллар билан ҳисобланиши мумкин-масалан,
узлуксиз атрибутлар учун Евклид масофа одатда ишлатилади;
дискрет атрибутлар учун ўхшашлик коэффициенти ёки бошқа,
мураккаб масофа ўлчамлари қўлланилади;кўп атрибутли
маълумотлар учун уларнинг ҳар бири орасидаги масофа
ҳисоблаб чиқилади ва натижалар бирлаштирилади.
Икки гурух усулларга ажратилади:
• к-га яқин қўшнисигача бўлган масофадан фойдаланиш;
• ҳар бир объект учун нисбий зичликдан фойдаланиш.
Бундай усулларнинг афзалликларига маълумотларни дастлаб
эксперт томонидан бирон-бир синфга тайинламаслик
кераклиги киради - булар маълумотларга асосланган
бошқариш усуллар бўлиб, маълумотларнинг табиати ва
хусусиятлари ҳақида априори тахминлар қилинмайди. Шунга
қарамай, тренингда мутахассиснинг иштироки ҳам
аномалияни аниқлаш сифатини ошириши мумкин.
Кластерлашга асосланган аномал қидирув
усуллари.
• Хар бир танлов объектлар тўпламини,
кичик ухшаш тўпламларга ажратилиши
кластерлаш дейилади.
Ушбу усуллар синфини қўллашда қуйидаги
тахминлардан бирига таянилади.
• нормал объектлар кластерга тегишли,
аномал бўлганлар йўқ;
• нормал объектлар кластер марказига яқин
жойлашади, аномал объектлар марказдан
узоқда жойлашади;
• нормал объектлар катта, зич кластерларга,
аномалиялар эса кичик ва сийрак
кластерларга тегишли бўлади.
• Кластерлашга асосланган усуллар
обектларга тегишли бўлган кластер
ҳақидаги маълумотлар асосида обектларга
бўлган масофани бахолайди, энг яқин
қўшничилик усули эса ҳар бир обектнинг
маҳаллий муҳитидан фойдаланади.
• Бу методлар синфининг афзалликлари
ўқитувчисиз ўқитиш имкониятидир.
Использование набора данных
• Моделирование процесса обнаружения
аномалий можно проведит на данных из
репозиториев UCR Time Series Data Mining
Archive, UC Irvine Repository. Также
использовать
данные,
собранные
с
помощью специальных систем анализа
трафика при передаче файлов по
различным протоколам (набор данных
«трафик»).
Маълумотлар тўпламидан фойдаланиш
• "трафик" dataset. "Трафик" - турли шароитларда
(бир неча протоколлар орқали бир неча файлларни
бир вақтнинг ўзида узатиш, шу жумладан ftp
протоколи орқали файл узатиш + давомида
трафикни таҳлил қилиш асосида олинган
маълумотлар.
• Маълумотларни олиш учун турли шароитларда
турли протоколлар ёрдамида икки компютер
ўртасида тармоқ орқали маълумотлар узатиладиган
махсус стенд йиғилиши талаб этилади. Фақат
узатилаётган маълумотлар пакетининг узунлиги
қайд этилади. Бор бўлса ҳам тескари узатиш қайд
этилмайди.
Фиксирланган маълумотлар пакетини узатилишини
мисол тариқасида кўриб чиқамиз.
• NO. Time Source Destination Protocol Info
4339 23.07 1158 10.10.10.50 10.10.10.100 FTP-DATA FTP
Data: 1448 bytes
5 Frame 4339 (1514 bytes on wire, 1514 bytes captured)
Ethernet Dst:
II, Src: 00:27:0e:2d:06:df (00:27:0e:2d:06:df),
00:27:0e:2d:06:17 (00:27:0e:2d:06:17)
Internet Protocol, Src: 10.10.10.50 (10.10.10.50), Dst:
10.10.10.100 (10.10.10.100)
Transmission Control Protocol, Sro Port: 59022 (59022), Dst
Port: 9680 (9680), Seq: 288153, Ack: 1, ben: 1448 FTP Data
• Бу ерда 10.10.10.50 (порт 59022) IP –
адресли компьютердан 10.10.10.100 (порт
9680) IP-адресли компьютерга узатилади.
Пакет номери 4339, узатиш бошлангандан
сўнг қабул қилиш вақти 23.07.21 58 с,
пакетда маълумотлар узатилмоқда
(хизматда фойдаланадиган эмас), пакет
узунлиги 1448 байт. Узатиш FTPпротоколи
асосида амалга оширилган.
Маълумотларни узатишнинг қуйидаги
вариантлари текширилган:
• FTP (эталон) протоколи бўйича узатиш;
• Бир вақтнинг ўзида FTP ва ping (FTP- трафик
тахлил қилинган) протоколлари асосида
узатиш;
• Бир вақтнинг ўзида FTP ва UDP (FTP-трафик
тахлил қилинган) протоколлари асосида
узатиш.
• Тармоқ орқали маълумотлар узатиш ҳақида бундай
маълумотларга эга бўлиш, маълумотлар узатишда
"шубҳали" эканлигини аниқлаш талаб этилади, бу
тармоқ инфратузилмасининг мумкин бўлган
муросасини, дастурий таъминот ва/ёки аппарат
закладкаларни мавжудлигини кўрсатиши мумкин.
• Тест маълумотлари сифатида бошқа қаторларни
махсус ҳосил қилинган вақтли кетма-кетлик да
узатиладиган маълумотлардан фойдаланилади.
UCR Time Series Data Mining Archive дан
маълумотлар тўплами
• Малумотлар туплами «цилиндр-колоколворонка» («cylinder-bell-funnell», «CBF»),
номига сифатида, у шартли "цилиндрли",
"қўнғироқ", "воронка« деб номланган
вақтли қаторларнинг кетма-кет, уч хил
синфларни ўз ичига олади. Бу вақт
қаторлари
билан
ишлайдиган
алгоритмларни
синашда
кенг
қўлланиладиган таниқли маълумотлар
тўплами
• "Цилиндр" синфига мансуб вақтли қаторлар
графикда
тепаликнинг
мавжудлиги
билан
характерланади,
ундан
олдин
параметр
қийматининг кескин ошиши, ундан кейин эса
кескин пасайиши кузатилади. "Қўнғироқ" синфи
қийматнинг вақт моментидан аста-секин ўсишига
мос келади, ундан кейин қийматнинг кескин
пасайиши кузатилади. Воронка синфи қиймати
кескин сакраш билан характерланади, шундан
кейин аста-секин пасайиши кузатилади. Вақт
қаторлари-бу синфларнинг типик вакиллари расмда
кўрсатилган
Цилиндр
Колокол
Воронка
Keling, jadvalda keltirilgan vaziyatlar to'plamini
ko'rib
chiqaylik.
Jadvaldagi
vaziyatlar
jarayonlarning normal borishini tavsiflaydi, oxirgi
ustun - vaziyat sinfi. Har bir Sit1-Sit9 holati, ilgari
tasvirlangan
silindrli
qo'ng'iroq-voronka
ma'lumotlar bazasidan misol sifatida olingan
sinflardan biriga tegishli. Qisqartirish uchun biz
sinflarni belgilaymiz CY, BE va FU (cylinder цилиндр, bell - колокол, funnel - воронка
• Jadvaldagi vaziyatlarga asoslanib, bitta sinfda
bo'lgani kabi, jarayonlarning "normal" yo'nalishini
tavsiflaydigan va har bir holat uchun "normal" yoki
"g'ayritabiiy" ekanligini aniqlaydigan modelni
yaratish kerak. . Agar vaziyat "normal" deb
tasniflangan bo'lsa, u qaysi sinfga tegishli ekanligini
aniqlash kerak. Sinf odatda ob'ektning ishlash
rejimiga mos keladi. Bunday holda, biz oldimizda
vaqt ketma -ketligidagi anomaliyalarni aniqlash
vazifasi turibdi, o'quv majmuasida "oddiy holatlar"
deb e'lon qilingan bir nechta sinflarning misollari
mavjud. Bu, masalan, ikkita sinfga tegishli bo'lgan
vaqt ketma -ketligi bo'lishi mumkin: "silindr" va
"qo'ng'iroq".
t
Сит1
Сит2
Сит3
Сит4
Сит5
Сит6
Сит7
Сит8
Сит9
0 1 2 3 4 5 6 7 8 9
-1.07 -0.13 0.85 0.96 0.81 0.84 -0.08 -1.01 -0.90 -1.13
-0.72 -0.70 1.25 1.23 1.27 0.03 -0.76 -0.71 -0.71 -0.74
-0.94 -0.84 1.06 0.97 1.01 1.04 -0.35 -0.92 -0.83 -0.80
-0.56 -0.62 -0.19 0.64 1.45 1.39 -0.69 -0.61 -0.66 -0.62
-0.98 -0.91 -0.59 -0.53 0.30 0.80 1.25 1.41 -0.98 -0.99
-0.54 -0.44 -0.28 0.75 1.61 0.40 -0.45 -0.53 -0.38 -0.61
-0.45 1.05 1.25 0.61 -0.35 -0.50 -0.39 -0.27 -0.89 -0.28
-0.68 -0.67 1.63 1.07 0.69 0.01 -0.59 -0.70 -0.64 -0.53
-1.01 0.50 1.35 0.89 0.33 0.18 -0.34 -0.75 -0.98 -0.65
КС
CY
CY
CY
BE
BE
BE
FU
FU
FU
Ўқитиш.тўп.Қат. 1
Ўқитиш.тўп.Қат. 4
Ўқитиш.тўп.Қат 2
Ўқитиш.тўп.Қат 5
Ўқитиш.тўп.Қат 3
Ўқитиш.тўп.Қат 6
• Muammoning yuqoridagi formulasiga asoslanib, rasmdagi
vaqt ketma -ketligini ko'rish mumkin. 1 -qator,. 2 -qator va. 6 qator bir -biriga juda o'xshash, ya'ni ular bir sinfga tegishli buni 1 -sinf deb ataymiz.
• Vaqt ketma -ketligini rasmda. 3 -qator, 4 -qator va 5 -qator
ham o'xshash, lekin boshqa sinfga tegishli - buni sinf 2 deb
ataymiz.
Qat 1 Test.tup
Qat 2 Test.tup
Qat3 Test.tup
• Uchinchi vaqt qatori (rasm) Oldingi ikkita qatordan
sezilarli farq qiladi va, albatta, mashg'ulotlar
to'plamidan hech qanday qatorga "o'xshamaydi". Shu
bilan birga, imtihon namunasining ushbu vaqtli ketma ketligi olingan mexanizm yoki qonun, mashg'ulotlar
majmuasidan vaqtli ketma -ketlikni olish mexanizmidan
farq qiladi, deb taxmin qilish mumkin. Bundan farqli
o'laroq, rasmdagi vaqt qatorlari. 1 -qator va 2 -qatori
anomaliya bo'lmaydi, chunki ular mashg'ulotlar
majmuasidan vaqtli ketma -ketlikni ajratishga juda
o'xshash.
Anomaliyalarni aniqlash usuli
Masalaning quyilishi: berilgan ob'ektlarning I
sonli to'plami uchun IX istisnolar to'plamini olish
kerak.Buning uchun I to'plamiga quyidagilar
kiritiladi:
1. o'xshamaslik funktsiyasi D (Ij), Ij ⊂ I, P (I) da
aniqlangan - I ning barcha kichik to'plamlari
to'plami va musbat real qiymatlarga ega;
• P (I) da aniqlangan quvvat funktsiyasi C (Ij), Ij ⊂ I
- I ning barcha kichik to'plamlari to'plami va har
qanday I1 ⊂ I, I2 ⊂ I uchun I1⊂ I2 => C (I1) ) <C
(I2);
• Har bir Ij⊂ I uchun hisoblangan "yumshatuvchi
omil" SF (Ij) = C (I \ Ij) * (D (I) - D (I \ Ij))
Shunda IX ⊂ I, agar SF (IX) yumshatuvchi koeffitsienti
maksimal bo'lsa, D va C ga nisbatan I uchun
istisnolar majmui hisoblanadi.
• Norasmiy ravishda, istisnolar to'plami - bu I ning eng kichik to'plami bo'lib, uning
o'xshamasligiga eng ko'p hissa qo'shadi.
Yumshatuvchi omil, agar Ij kichik to'plami
chiqarib tashlansa, I to'plamining
o'xshamasligini qanchalik kamaytirish
mumkinligini ko'rsatadi.
TS — ADEEP алгоритми . O'quv majmuasi uchta vaqt qatoridan iborat bo'lsin
- (ularni cyl1, cyl2, су13 belgilaymiz)
Ряд 1 обуч. мн-ва
Ряд 2 обуч. мн-ва
Ряд 3 обуч. мн-ва
Shaklda ko'rsatilgan vaqt ketma -ketligi qatorini anomaliya
ekanligini aniqlash kerak. (uni bel deb belgilaymiz).
Подмножество Ij
cyl2, cyl3, bel
Фактор сглаживания
0.370713
cyl1, cyl3, bel
0.370713
cyl3, bel
0.0677333
cyl1, cyl2, bel
0.370713
cyl2, bel
0.205667
cyll, bel
0.45465
bel
0.136392
cyl1, cyl2, cyl3
0.370713
cyl2, cyl3
0.362783
cyl1, cyl3
-0.00448333
cyl3
cyl1, cyl2
-0.128708
0.03515
cyl2
0.0194417
cyl1
0.0941917
I tuplam uchun yumshatish faktorini xisoblash natijalari
• Algoritmga muvofiq, I to'plami ko'rsatilgan to'rtta
vaqtli ketma -ketlikdan iborat bo'ladi: I = {cyl1,
cyl2, cyl3, bel]. Ij ning barcha mumkin bo'lgan
kichik to'plamlari ko'rib chiqiladi (bo'sh to'plam
va to'plamdan tashqari). 24-2 = 14 ta shunday
kichik to'plamlar mavjud: {{cyl 1}, {cyl 2}, {cyl 3},
{bel}, {cyl 1, cyl 2}, {cyl 1, cyl 3}, {cyl 1, bel}, {cyl 2 ,
cyl 3}, {cyl 2, bel}, {cyl 3, bel}, {cyl 1, cyl 2, cyl 3},
{cyl 2, cyl 3, bel}, {cyl 1, cyl 3, bel}, {cyl 1, cyl 2,
bel}}. Har bir kichik to'plam uchun tekislash
koeffitsienti ko'rsatilgan formulalar yordamida
hisoblanadi.
• Bu holda, maksimal tekislash koeffitsienti
(0,45465) Ix = {cyl1, bel} vaqt qatoridan iborat
to'plamga ega, shuning uchun bu istisnolar
to'plami. Va vaqt seriyasi istisnolar to'plamiga
({bel} ⊂ IX) kirganligi sababli, bu anomaliya.
TS-ADEEP алгоритми Псевдокоди
Download