Uploaded by Азамат Пиримбетов

Маъруза-1

advertisement
Маъруза-1. Кириш.Maълумотларни қазиб олиш ва маълумотларни
қазиб олиш.Асосий вазифалар.
Data Mining (Маълумотларни қазиб олиш) атамаси тез-тез
ишлатилмоқда, лекин баъзида у катта маълумотлар билан аралаштирилади.
РБC тенденциялари маълумотлар қазиб олиш қандай ишлашини, нима учун
бу бутун фан ва қанча маълумот ишлаб чиқарувчилар пул ишлашини
тушунтиради.
Data Mining нима ?
Data Mining (маълумотларни қазиб олиш, маълумотларни қазиб олиш,
маълумотларни чуқур қазиб олиш ёки оддийгина маълумотларни қазиб
олиш) - бу компаниялар томонидан хом ашёни айлантириш учун
ишлатиладиган жараён катта маълумотлар ичига фойдали маълумотлар.
Ушбу технология учун унчалик машҳур бўлмаган "маълумотлардаги
билимларни кашф етиш" ёки КДД (маълумотлар базаларида билимларни
кашф
етиш)
атамаси
ҳам
қўлланилади.
Агар атама бўлса катта маълумотлар барчасини англатади катта
маълумотлар-ҳам қайта ишланган, ҳам емас, кейин маълумотларни қазиб
олиш бу асосий билимларни олиш учун ушбу маълумотларга чуқур шўнғиш
жараёнидир.
Маълумот қазиб олиш атамасининг муаллифи Григорий ПятецкийShapiro уни инсон фаолиятининг турли соҳаларида қарор қабул қилиш учун
зарур бўлган хом маълумотларда илгари номаълум, аҳамияциз, амалда
фойдали ва изоҳланадиган билимларни кашф етиш жараёни деб таърифлаган.
Катта маълумотлар пакетларидаги нақшларни қидириш учун дастурий
таъминотдан фойдаланган ҳолда, корхоналар marketing стратегиясини
яратиши, кредит хатарларини бошқариши, фирибгарликни аниқлаши, спамни
филтрлаши ёки ҳатто фойдаланувчи кайфиятини аниқлаши мумкин.
Маълумотларни қазиб олиш самарали маълумотларни йиғиш, сақлаш ва
компютерни қайта ишлашга боғлиқ. Маълумотларни қазиб олиш
маълумотлар фанлари соҳасида алоҳида фан ҳисобланади.
"Маълумотлар қазиб олиш" атамаси академик журналларда 1970
йилдаёқ пайдо бўлган, аммо у ҳақиқатан ҳам 1990-йилларда Интернет пайдо
бўлганидан кейин машҳур бўлган. Кейин компаниялар аҳамияциз бўлмаган
нақшларни топиш ва мижозларнинг хатти-ҳаракатларини башорат қилишни
ўрганиш учун катта ҳажмдаги ҳетерожен маълумотларни таҳлил қилишлари
керак еди. Анъанавий статистик моделлар бу вазифани бажара олмади.
Биринчи маълумотларни қазиб олиш тизимлари супермаркетларнинг
савдо маълумотларини бир нечта параметрлар бўйича, шу жумладан
минтақалар ва маҳсулот турлари бўйича уларнинг ҳажмини қайта ишлашга
мўлжалланган..
Data Mining Вазифалари
• Маълумотларни қазиб олиш моделлари бир неча турдаги вазифалар учун
ишлатилади:
• прогнозлаш: сотишни тахмин қилиш, server юкини ёки ишламай
қолишини тахмин қилиш;
• хавф ва еҳтимоллик: мақсадли почта жўнатмалари учун мос мижозларни
танлаш, хавфли сценарийлар учун баланс нуқтасини аниқлаш, ташхис
қўйиш ёки бошқа натижалар учун еҳтимолларни белгилаш;
• тавсиялар: биргаликда сотиладиган маҳсулотларни аниқланг, тавсиялар
хабарларини яратинг;
• кетма-кетликни қидириш: харид қилиш пайтида мижозларнинг танловини
таҳлил қилиш, уларнинг хатти-ҳаракатларини башорат қилиш;
• гуруҳлаш: мижозларни ёки ҳодисаларни кластерларга бўлиш, ушбу
кластерларнинг умумий хусусиятларини таҳлил қилиш ва башорат қилиш.
Қаерда ишлатилади Data Mining
Маълумотларни қазиб олиш асосан истеъмолчиларга хизмат
кўрсатадиган тармоқлар, шу жумладан чакана савдо, молия ва marketing
томонидан қўлланилади. Масалан, Сбер-да аҳолининг пул оқимлари,
товарлар ва хизматларни сотиш ва бошқа параметрларни таҳлил қилиш
асосида бозор тармоқлари ёки ҳудудлари тўғрисидаги маълумотларни тақдим
етадиган аналитик йиғиш хизмати мавжуд. У ҳам компаниялар, ҳам давлат
идоралари томонидан минтақанинг ривожланиш салоҳиятини баҳолаш учун
ишлатилиши
мумкин.
Савдо
Маълумотларни қазиб олиш чакана савдо тармоқларига рекламани
яхшилаш, омборларда товар захираларини яратиш ва уларни кўргазмага
қўйишни режалаштириш, янги дўконларни очиш ва турли тоифадаги
мижозларнинг еҳтиёжларини аниқлаш мақсадида харид қилиш саватларини
таҳлил қилиш имконини беради.
Россиянинг "Лента" тармоғи ўз мижозларининг 90% дан ортиғининг
содиқлик картаси маълумотларини таҳлил қилди ва истеъмолчиларнинг
хатти-ҳаракатларига кўра аудиторияни маълум сегментларга ажратди.
Хусусан, чакана сотувчи фақат асосий маҳсулотларни сотиб оладиган
одамлар ва кўпинча фақат ичимликлар ва газаклар сотиб оладиган еркаклар
сегментини ажратиб кўрсатди. Бу ассортиментни оптималлаштириш ва
тартиб ва нархларни бошқариш имконини берди.
Amazon 2021 йил октябр ойида сотувчилар ҳозирда харидорлар
қидираётгани ҳақида маълумот олиш имкониятини берадиган воситани еълон
қилди ва шу билан сотиладиган маҳсулотларни танлашни соддалаштиришга
ёрдам беради.
Банклар ва Телеком
Маълумотларни қазиб олиш кредит ташкилотларига бундай
операцияларни таҳлил қилиш, шунингдек, мижозларнинг турли гуруҳларига
ҳар хил турдаги хизматларни таклиф қилиш орқали кредит карталаридаги
фирибгарликни аниқлаш имконини беради. Telecom спам билан курашиш ва
абонентларнинг турли гуруҳлари учун янги тарифларни ишлаб чиқиш учун
маълумотларни таҳлил қилишдан фойдаланади.
Россия уяли алоқа операторлари маълумотларни қазиб олишни ички
мақсадларда ишлатишади, шунингдек маҳсулот сифатида маълумотларни
таҳлил қилишни таклиф қилишади. Шундай қилиб, Beeline 2020 йилда
компанияларга Вимпелcом томонидан тўпланган маълумотлар базаларидан
маълумотларни қазиб олиш орқали ўз мижозларининг демографик
маълумотларини олиш имконини берувчи янги хизматни ишга туширди.
Суғурта
Суғурта компаниялари хатарларни аниқлаш ва уларнинг мажбуриятлар
бўйича йўқотишларини камайтириш, шунингдек мижозларга тегишли
хизматларни таклиф қилиш учун катта ҳажмдаги маълумотларни таҳлил
қилади.
Масалан, Австралия хусусий суғурта компанияси ҲCФ катта
маълумотларни таҳлил қилиш тўрт ой давомида реклама жўнатмаларининг
нархини 25 фоизга камайтиришга имкон берди. Таҳлилчилар қимматроқ
хизматни сотиб олишга тайёр бўлган мижозларни аниқ аниқладилар ва улар
учун алоҳида ахборот бюллетенини тайёрладилар.
Ишлаб чиқариш
Катта маълумотларни таҳлил қилиш корхоналарга таъминот
режаларини талаб прогнозлари билан мувофиқлаштириш, шунингдек, ишлаб
чиқариш муаммоларини дастлабки босқичларда аниқлаш ва брендга
муваффақиятли сармоя киритиш имконини беради. Бундан ташқари, ишлаб
чиқарувчилар ишлаб чиқариш линиясини тўхтатмаслик учун ишлаб чиқариш
активларининг амортизациясини башорат қилишлари ва техник хизмат
кўрсатиш ва таъмирлашни режалаштиришлари мумкин. Маълумотлар қазиб
олишни саноатда қўллаш мисоли технологик жараён параметрларига қараб
маҳсулот сифатини башорат қилишдир.
Россия «Инфосистемы Джет» ақлли қарор қўллаб-қувватлаш тизими
Жет Галатеа таклиф етади. У ускунадаги сенсорлардан келадиган технологик
кўрсатмалар ва маълумотларни таҳлил қилади, сўнгра ишлаб чиқариш
жараёнини мақбул ўтказиш бўйича технологларга тавсиялар шакллантиради
ва беради. Жет Галатеа металлургия, ёғочни қайта ишлаш, қишлоқ хўжалиги
ва тогъ - кон саноатида хом ашё истеъмолини камайтириш ва маҳсулот
ҳажмини
ошириш
учун
ишлатилади.
Социология
Ижтимоий media маълумотларига асосланган ҳиссиётларни таҳлил қилиш
маълум бир гуруҳ одамларнинг маълум бир мавзу билан қандай
боғлиқлигини тушунишга имкон беради. 2016 йилдан бери Россия полицияси
мамлакатнинг айрим ҳудудларида Зевс тизимидан фойдаланмоқда. Бу сизга
ижтимоий тармоқдаги фойдаланувчи хатти-ҳаракатларини кузатишга имкон
беради ва дўстлар, қариндошлар, билвосита дўстлар, яшаш жойлари, умумий
гуруҳлар, ёқтиришлар ва репостларни таҳлил қилиш асосида
фойдаланувчилар ўртасида мумкин бўлган алоқани ўрнатиб, атроф-муҳит
графигини
тузади.
Медицина
Маълумотларни қазиб олиш тизимлари тиббий ташхис қўйиш учун ҳам
қўлланилади. Улар турли касалликлар белгиларининг комбинациясини
тавсифловчи қоидалар асосида қурилган. Қоидалар даволаш воситаларини
танлашга ёрдам беради. Масалан, Британиянинг Babylon Heath стартапи
мижозларнинг соғлиғи, уларнинг турмуш тарзи ва одатлари ҳақидаги барча
маълумотларни тўплайди, сўнгра алгоритм гипотезаларни тузади ва
текшириш, даволаш вариантларини таклиф қилади ва ҳатто аниқ
шифокорлар ва клиникаларни тавсия қилади.
Тавсия тизимлари
Бундай тизимлар одамлар учун қизиқарли бўлиши мумкин бўлган
товарлар ёки хизматларни таклиф қилиш учун мўлжалланган ва мижозларни
қўллаб-қувватлаш учун ҳам ишлатилади. Улар Реал вақтда амалга
ошириладиган маълумотларни қазиб олиш туфайли ишлайди. Оддий қилиб
айтганда, model доимий равишда янгиланади. Амазоннинг Alexa овозли
ёрдамчилари, Apple Сири ва Yandex Alice шундай ишлайди. Мисол
тариқасида биз Диди такси қўллаб-қувватлаш хизматини ҳам келтиришимиз
мумкин, бу ерда алгоритм фойдаланувчи сўровларининг 60% гача ҳал
қилади,
чунки
улар
кўпинча
ўхшашдир.
Технология ва усуллар Data Mining
Маълумотларни қазиб олишнинг бир неча босқичлари мавжуд.
Муаммо баёноти. Ушбу қадам бизнес талабларини таҳлил қилишни, муаммо
соҳасини аниқлашни, model баҳоланадиган кўрсаткичларни, шунингдек
таҳлил лойиҳаси учун вазифаларни аниқлашни ўз ичига олади.
Маълумотларни тайёрлаш: бирлаштириш ва тозалаш. Бу иш нафақат
кераксиз маълумотларни олиб ташлашни, балки улардаги яширин
боғлиқликларни қидиришни, енг аниқ маълумотлар манбаларини аниқлашни
ва таҳлил қилиш учун жадвал яратишни ҳам ўз ичига олади.
Маълумотларни ўрганиш.
Қурилиш моделлари.
Моделларни тадқиқ қилиш ва текшириш.
Уларнинг прогнозларининг тўғрилигини махсус воситалар ёрдамида
текшириш мумкин.
Тарқатиш ва янгилаш моделлари. Модел ишлаётганда, янги маълумотлар
мавжуд бўлганда уни янгилаш керак ва кейин уларни қайта ишлаш керак.
Маълумотларни қазиб олиш босқичлари (Фото: predictivesolutions.ru)
Маълумотлар кончиси нимани билиши ва қила олиши керак
Маълумотларни ақлли қайта ишлаш бўйича мутахассис математик
статистика соҳасида чуқур билимга ега бўлиши, чет тилларини, шунингдек
дастурлаш тилларини билиши керак. У катта ҳажмдаги маълумотларни қайта
ишлайди ва ундаги уланишларни қидиради. Мутахассис машинани ўрганиш
усулларидан фойдаланади, алгоритмларни яратади ва статистик таҳлил билан
ишлайди. Кейин маълумотлар кончиси ўз ишининг натижаларини
ташкилотга тушунарли форматда тақдим етади. Ушбу тақдимотлар асосида
компания қарор қабул қилади.
Иш берувчилар техник, математик ёки табиий фанлар бўйича
маълумотларга ега бўлган маълумотларни қазиб олиш бўйича
мутахассисларни афзал кўришади. Университетлар тегишли таълим
йўналишларини таклиф етади:" математика ва Информатика"," амалий
математика ва Информатика"," амалий Информатика "ва"тизимни таҳлил
қилиш ва бошқариш". Бундан ташқари, маълумотларни қазиб олиш
асосларини курсларда ўрганиш мумкин, масалан, Coursera.
Data Mining учун дастурлар
Маълумотларни қазиб олиш вазифаларини бажарадиган кўплаб
дастурлар мавжуд. Бу ерда баъзи мисоллар.
SAS Enterprise Miner - фирибгарликни аниқлаш, молиявий
хатарларни минималлаштириш, ресурсларга бўлган еҳтиёжни баҳолаш ва
прогнозлаш, marketing кампаниялари самарадорлигини ошириш ва
мижозларнинг хиралашишини камайтириш каби вазифаларни ҳал қилишда
фойдаланиладиган маълумотларни қазиб олиш усуллари тўплами. У
фойдаланувчиларга
қулай
ва
интуитив
интерфейсга
ега,
бу
фойдаланувчиларга ўзларининг таҳлил ва прогнозлаш моделларини яратишга
имкон беради. Турли хил маълумотларнинг катта қатори билан ишлашда ҳам
юқори кўрсаткичларни кўрсатади.
Microsoft Analysis Services — бизнес разведкаси, маълумотларни
таҳлил қилиш ва ҳисобот бериш учун мўлжалланган. Хизматлар турли
платформаларда, шу жумладан Azure cloud-да мавжуд. Ўзингизнинг
алгоритмларингизни яратиш ва уларни маълумотларни қазиб олишнинг янги
функцияси сифатида қўшиш механизми тақдим етилган.
SAS Customer Intelligence 360 — Бу корхоналарга marketing
кампанияларини режалаштириш ва амалга ошириш, уларнинг натижаларини
таҳлил қилиш ва мижозлар оқимини кузатиш имконини берувчи
платформадир. У контекстни ҳисобга олган ҳолда мижозларнинг вебсаҳифалардаги ҳаракатлари, шу жумладан аноним фойдаланувчилар ҳақида
Реал вақт режимида батафсил маълумотларни тўплайди. Кейин платформа
маълум бир мижоз учун саҳифаларда ва мобил иловаларда таркибни
жойлаштириш вақти ва жойи тўғрисида тавсиялар беради.
SAS Credit Scoring — кредит рисклари ва мижозларнинг кредитга
лаёқатлилигини баҳолаш тизими. Бу, айниқса, банклар, молия сектори
компаниялари ва телеком учун фойдалидир. SAS кредит скоринги потенциал
қарз олувчининг маълумотларини таҳлил қилади ва мумкин бўлган
хавфларни ҳисобга олган ҳолда кредит бериш ёки хизмат кўрсатиш бўйича
тайёр тавсиялар беради.
Board — бизнес разведкаси ва корпоратив самарадорликни бошқариш
функцияларини бирлаштиради. Корхоналарга мураккаб аналитик ва
режалаштириш дастурларини ишлаб чиқиш ва қўллаб-қувватлашга имкон
беради. Агар сиз бир нечта маълумот манбаларига кириш имконига ега
бўлсангиз, восита ҳисоботларни тузиш учун ҳам фойдалидир.
SAS Revenue Optimization — бу чакана нархларни оптималлаштириш
бўйича ечимлар тўплами бўлиб, у маълум бир жойда ва маълум бир вақтда
рақобатбардош савдоларни яратиш, акциялар ва оммавий савдоларни
бошлаш учун optimal нархни аниқлаш имконини беради. У чакана савдода
ишлатилади.
RapidMiner — Бу чуқур ўрганиш алгоритмлари, матнни таҳлил қилиш
ва машинани ўрганиш имкониятига ега бўлган маълумотларни қазиб олиш
учун очиқ платформадир. Рапидминер компаниянинг маҳаллий серверларида
ҳам, булутда ҳам ишлатилиши мумкин. Платформа енергетика ва саноат,
машинасозлик ва бошқа соҳаларда машҳур.
Data Mining Келажаги
Маълумотларни қазиб олиш тизимлари бозори ўсиб бормоқда. Бунга
йирик корпорациялар: сас, ИБМ, Microsoft, Oracle ва бошқаларнинг фаолияти
ёрдам беради. 2027 йилга келиб global илғор таҳлил бозорининг ҳажми 23,1%
га ўсиши ва 56,2 миллиард долларга етиши кутилмоқда.
Маълумотларни қазиб олишнинг сўнгги тенденциялари орасида virtual
ва кенгайтирилган ҳақиқат елементлари билан таҳлил усулларини ишлаб
чиқиш, уларни маълумотлар базаси тизимлари билан бирлаштириш,
тиббиётдаги янгиликлар учун биологик маълумотларни олиш, веб-кон
(интернетдаги маълумотларни таҳлил қилиш), Реал вақтда маълумотларни
таҳлил қилиш киради., шунингдек маълумотларда махфийликни ҳимоя
қилиш чоралари кончилик. Саноат раҳбарлари келажакда маълумотлар қазиб
олиш корпоратив маълумотлар омборларига жойлаштириладиган ақлли
дастурларда қўлланилади, деб ҳисоблашади.
Маълумотлардаги нақшларни аниқлашнинг асосий муаммоси-бу
ахборот массивларини саралаш учун зарур бўлган вақт. Маълум усуллар
бундай қидирувни сунъий равишда чеклайди ёки қидирув самарадорлигини
пасайтирадиган бутун қарор дарахтларини қуради. Ушбу муаммони ҳал
қилиш маълумотлар қазиб олиш маҳсулотларини ишлаб чиқувчиларнинг
асосий мақсади бўлиб қолмоқда.
Download