Математичні методи дослідження операцій: Курс лекцій

МАТЕМАТИЧНІ МЕТОДИ ДОСЛІДЖЕННЯ ОПЕРАЦІЙ Курс лекцій Львів - 2019 1 Зміст Вступ…………………………………..…………………….……………..3 Безкоаліційна гра в нормальній формі…………………….……………..4 Основні означення теорії ігор ……………………………..……………..6 Теорія корисності Фон Неймана – Моргенштерна…………………… 11 Антагоністичні ігри ……………………………………………………...15 Мішане розширення антагоністичної гри ……………………………. 21 Матрична гра та задачі лінійного програмування…………………….. 27 Графоаналітичний метод розв’язку матричних ігор 2×n та n×2……………………………………………......32 Аналітичний метод розв’язку матричних ігор 2×2……………………..38 Поверхня виграшу в матричній грі 2×2………………………………… 39 Метод Брауна-Робінсона ………………………………………………... 41 Неперервні антагоністичні ігри та їхнє мішане розширення ………….44 Вгнуто-опуклі ігри……………………………………………………….. 45 Ігри з вибором моменту часу……………………………………………. 46 Біматричні ігри …………………………………………………………...51 Пошук розв’язку біматричної гри в цілком мішаних стратегіях ……………………………………………. 70 Біматрична гра зі співпадаючими матрицями………………………….. 73 Стратегічна еквівалентність ігор ………………………………………...74 Алгоритм Лемке – Хаусона ………………………………………………76 Модель дуополії за Курно……………………………………………….. 88 2 Вступ. Теорія ігор – це розділ математики, в якому досліджуються математичні моделі прийняття рішень в умовах конфліктів, тобто в умовах зіткнення сторін, кожна з яких прагне впливати на розвиток конфлікту, виходячи з власних інтересів. Основна концепція некооперативної теорії ігор полягає в тому, що кожен з учасників конфлікту (яких прийнято називати гравцями) прагне максимізувати власну вигоду та є байдужим, щодо вигоди інших гравців. Теорію математичних моделей прийняття оптимальних рішень прийнято називати дослідженням операцій, а теорія ігор є її важливою складовою. 3 І. Безкоаліційна гра в нормальній формі Розглянемо математичну модель взаємодії індивідуальних учасників, кожен з яких характеризується можливими діями та своїми цілями. Кожен з учасників, діючи самостійно, виходить з егоїстичних мотивів і прагне досягти найкращого результату особисто для себе. Такі моделі складають зміст безкоаліційної теорії ігор. Математична модель, що описує взаємодію різних сторін, повинна адекватно відображати основні характеристики такої взаємодії. По-перше, в моделі повинні бути вказані учасники взаємодії. В теорії ігор їх прийнято називати гравцями. Тобто, повинен бути заданий список гравців, який часто представляється списком {1,2,…,n}, де 1 представляє першого, 2-другого, і т.д., n представляє останнього, n-го гравця. По-друге, гравці роблять певні дії та впливають таким чином на процес взаємодії. Фактично, взаємодія визначається набором дій всіх учасників або гравців. В теоретичних моделях кожному гравцю i  N приписується множина Xi всіх можливих дій та його вплив зводиться до вибору конкретного елемента xi з цієї множини. Кожна можлива дія гравця називається стратегією та множина всіх стратегій позначається Xi. Ця множина є довільною з кількістю стратегій, не менш двох. Розвиток процесу взаємодій визначається вибором дій всіх гравців. В моделі визначаються впорядковані набори стратегій x=(x1,x2,…,xn), де стратегія xi  X i є вибором гравця i  N . Такий вибір називається ситуацією гри та множина всіх ситуацій є декартовий добуток відповідних множин стратегій X   X i . Набір стратегій (x1,x2,…xi-1,xi+1,…,xn) всіх гравців, крім iN i-го позначають x-i (цей набір стратегій описує поведінку так би мовити зовнішнього світу, щодо i-го гравця).1 По-третє, гравці роблять свої вибори на підставі своїх переваг, де ціль гравця визначається функцією виграшу, тобто відображенням з множини ситуацій в множину виграшів. Вважається, що виграш визначається дійсним числом, який показує степінь досягнення бажаного результату.Таким чином, fi(X)→R є функцією виграшу i-го гравця. 2 Таким чином, три основні характеристики взаємодії визначаються списком учасників (множина гравців N), множиною їхніх можливих дій В різних джерелах для позначення стратегії та множини стратегій замість x та X можуть зустрічатись u та U, s та S або σ та Σ відповідно. 2 В [2], наприклад, замість початкового завдання функції виграшу, був використаний інший підхід. Замість функцій виграшу на множині ситуацій для кожного гравця задається відношення лінійного порядку (тобто, будь-які дві ситуації можуть бути порівняні між собою). На множині ситуацій для кожного гравця вводиться аналог функції виграшу, який повинен задовольняти тій умові, що на для еквівалентних ситуацій функція набуває однакових значень, а якщо одна ситуація має перевагу перед іншою, то й відповідна функція повинна бути строго більшою. При цьому чисельні значення функції не важливі, важливо лише тільки адекватне відображення відношення переваги. 1 4 (множина стратегій Xi) та цілями сторін, які взаємодіють (набором функцій виграшу fi, i=1,n). Математична модель з даними властивостями називається безкоаліційною грою n осіб в нормальній формі   N ,{X i }iN ,{ f i ( x)}iN  Виділимо важливі класи безкоаліційних ігор. Розглядаються ігри двох, трьох і т.д. осіб, які визначаються по кількості представлених в ній гравців. Якщо в грі кількість стратегій кожного гравця скінчена, то така гра називається скінченою і стратегії називаються чистими стратегіями гравців. Скінчена гра двох осіб називається біматричною грою. Така гра може бути представлена двома матрицями. Це матриці виграшів першого та другого гравців. Рядки цієї матриці ставляться у взаємно-однозначну відповідність стратегіям першого гравця, а стовпці – другого. Пара елементів, що знаходяться в першій та другій матриці у відповідних позиціях, відповідають ситуації гри та означає чисельне значення виграшу першого та другого гравців відповідно в даній ситуації. Якщо в біматричній грі сумарний виграш в кожній ситуації дорівнює нулю, то таку гру називають грою двох осіб з нульовою сумою або антагоністичною грою. Така назва відображає важливу властивість цих ігор, а саме, що виграш (програш) одного гравця в будь-якій ситуації чисельно дорівнює програшу (виграшу) іншого гравця в цій самій ситуації. Це є математичним представленнням антагонізму інтересів гравців. Зазвичай в такій грі задають функцію (матрицю) виграшів першого гравця, і таку гру також називають матричною. Антагоністичною грою називається трійка множин Г=<X, Y, f(x,y)> де X та Y – множини стратегій першого та другого гравців, а f: X×Y→R функція виграшу першого гравця. Основна задача безкоаліційної теорії ігор полягає в тому, щоб відповісти на запитання – що відбудеться в кожній конкретній грі, як вона буде розіграна? Іншими словами, яку стратегію xi вибере кожний з гравців i ? При цьому (явно чи маючи на увазі) виходять з наступних припущень: 1) Кожен з гравців прагне максимізувати свій виграш. 2) Кожен з гравців знає гру. 3) Свої стратегії гравці вибирають одночасно та незалежно. 4) Гра ведеться один раз. Обговоримо ці припущення. 1) Тут основною проблемою є те, що виграш кожного гравця залежить не тільки від його стратегії, а й від стратегій інших гравців. Прагнучи уникнути цієї невизначеності, теорія ігор прагне розглядати поняття раціональності всіх гравців. Раціональність означає бажання (і що дуже важливе, здібність) гравця максимізувати свій виграш, враховуючи всю доступну йому інформацію. Виникає природне питання, а яка інформація є у кожного з гравців. Відповідь на це запитання міститься в п.2. 5 2) В першу чергу це означає, що кожен з гравців знає свій виграш xi, а також виграші інших гравців x-i в будь-якій ситуації. Якщо перша частина припущення виглядає природньою, то друга може викликати певні запитання. Якщо гравець i навіть знає фізичні наслідки будь-якої ситуації для інших гравців, то звідки він знає ступінь їхньої корисності для інших гравців? Якщо навіть припустити, що наслідки виражені в грошовому еквіваленті та (що є абсолютно природнім) всі учасники гри люблять гроші, то, як буде відзначено нижче, корисність грошей не завжди є лінійною. Крім того, припускається, що знання гри та раціональність поведінки гравців є абсолютною, тобто кожен з гравців поводить себе раціонально і він припускає, що так само поводять себе інші гравці, і він знає, що вони це знають про нього, і так до нескінченості. 3) Одночасність прийняття рішення не обов’язково означає єдиний момент вибору стратегій всіми гравцями, ця умова може бути пом’якшена наступним чином: кожен з гравців у момент вибору стратегій абсолютно неінформований про вибір стратегій іншими гравцями. Тут наслідки впливу фізичної одночасності вибору стратегій чи відсутності інформованості на хід гри однакові, тому в будь-якому разі прийнято говорити про одночасність. 1 Незалежність прийняття рішення може трактуватись по різному. Деякі автори під цим розуміють відсутність обміну інформації між гравцями (доігрових переговорів, обіцянок один одному, загроз, взаємних зобов’язань і т.д). Деякі трактують це поняття дещо м’якіше, а саме: попередні переговори припускаються, але вони не зобов’язують жодного з гравців ні до чого. Іншими словами, якщо на переговорах навіть і було досягнуто попереднє узгодження, то будь-хто з гравців може відмовитись від нього в момент вибору своєї стратегії. При цьому мотиви такого відхилення обумовлені лише його заданою функцією виграшу fi і не мають для нього ніяких побічних наслідків (наприклад, помсти, морального засудження, трактування його дій як підлих або непослідовних, тощо). Детальніше про це в п.4. 4) Зміст цього припущення є найбільш чітким з усіх перелічених. Гравці зустрілись, зіграли та розійшлись – немає ніякої ні взаємної помсти, ні взаємної вдячності. Ящо однотипна гра буде повторюватись багатократно, то це вже в ряді випадків може бути зовсім інша гра. Основні означення теорії ігор Означення. Ситуація (x1,x2,…,xn) називається оптимальною за Парето2 , якщо не існує іншої ситуації (x1’,x2’,…,xn’), такої, що для всіх i=1,n Обмеження інформованності поведінки інших осіб до моменту прийняття рішень використовується, наприклад, в ході судових засідань. Так, за законом, свідок не має права бути присутнім на судовому засіданні до моменту початку його допиту. 1 Вільфредо Парето (1848-1923) – Італійський інженер , економіст та соціолог. Сформулював тезу “Всяка зміна, яка не приносить збитків, а деяким особам приносить користь, є соціальним покращенням. Ситуація ефективності є ситуацією, коли всі вигоди від обміну вичерпані”, яка надалі легла в основу принципу оптимальності за Парето. Сформулював також принцип 80 до 20, який має різні трактовки, наприклад: 80% 2 6 fi(x1’,x2’,…,xn’)≥fi(x1,x2,…,xn) та для деякого i нерівність строга. Означення. Стратегія i-го гравця xi*  X i називається найкращою відповідю (позначається BR (best reply)) на набір виборів x-i=(x1,x2,…xi-1,xi+1,…,xn) інших гравців, якщо xi  X i  f i xi* , xi   f i xi , xi  (тобто, стратегія xi* максимізує функцію виграшу i-го гравця за умови, якщо інші гравці дотримуються стратегій з набору x-i). Означення. Стратегія i-го гравця xi*  X i називається раціональною або обгрунтованою, якщо вона є найкращою відповідю на деякий набір виборів x-i інших гравців. Це означає, що i-й гравець може обгрунтувати таким чином: “я думав, що інші гравці поведуть себе як x-i, і обрав у такій ситуації найкращу для себе стратегію.” Означення. Ситуація x*=(x1*,x2*,…,xn*) називається рівновагою за Нешем, якщо i 1, n f i xi* , x*i   f i xi , x*i  (тобто кожному з гравців не вигідно відхилятись від вибраної стратегії xi* за умови, якщо всі інші гравці дотримуються своїх стратегій), або, іншими словами, i 1, nxi*  BR( x*i ) . Тут слід зауважити, що якщо оптимальність за Парето характеризує корпоративну (суспільну) оптимальність, то найкраща відповідь має відношення до індивідуальної (егоїстичної) оптимальності, тобто, коли кожен з гравців максимізує власну функцію виграшу та є байдужим, щодо виграшів інших гравців. Поняття розв’язку гри. Нажаль, навіть прийнявши жорсткі та нереалістичні припущення відносно знання гри, теорія ігор не відповідає чітко на основне запитання – що є розв’язком гри. Замість цього, розглядається декілька різних понять, які мають відношення до розв’язку гри, таких, як домінуючі стратегії, обережні стратегії, виключення домінованих стратегій, можливе виключення слабо домінованих стратегій, і як головний результат, рівновага за Нешем. подій є наслідками 20% причин, 80% обсягу роботи виконується за 20% робочого часу, 20% населення споживають 80% матеріальних благ, тощо. 7 Приклади ігор Приклад 1.1 (Камінь, ножиці, папір). В цій грі кожен з двох гравців одночасно вибирає один з трьох символів – камінь, ножиці або папір (вибір здійснюється показом відповідного символа, камінь – кулак, ножиці – два пальці, як число 2, папір – розкрита долонь). При цьому припускається, що “камінь” перемагає “ножиці” (тому, що затуплює), “ножиці” перемагають “папір” (тому, що ріжуть його), а “папір” перемагає “камінь” (оскільки може обгорнути його). Якщо гравець вибирає предмет, який виграє, то він виграє одиницю, якщо предмет, що програє – то мінус одиницю, якщо гравці вибрали однакові предмети, то гра закінчується у нічию. Подивимось на цю “дитячу” гру, як на “дорослу”, тобто опишемо її з точки зору теорії ігор. В даній грі два гравці, отже, N={1,2}. У гравців однакові можливості, отже, така гра є симетричною. Обидва гравці мають три стратегії - вибирати камінь, ножиці, або папір, отже X1=X2={К, Н, П}. Ця гра є матричною або антагоністичною. Запишемо вигаш першого гравця у вигляді таблиці: К Н П К 0 -1 1 Н 1 0 -1 П -1 1 0 Тут рядки відповідають виборам (стратегіям) першого гравця, а стовпці – виборам другого. Формально такі ігри прийнято записувати у вигляді матриці, а стратегії гравців нумерувати, тобто X1=X2={1, 2, 3},  0 1  1   A   1 0 1   1 1 0    В даній грі всі ситуації є оптимальними за Парето та немає точок рівноваги за Нешем. Приклад 2.1 (гра полковника Блотто). Гра полковника Блотто – це загальна назва великої кількості тактичних ігор. Наведемо один з простих прикладів цієї гри. Нехай дві армії ведуть боротьбу за два пункти. Перша армія під командуванням полковника Блотто складається з чотирьох (n=4) полків, друга під командуванням капітана Кіже складається з трьох полків. Армія, яка посилає більше полків на деякий пункт – займає його та знищує всі сили іншої армії, отримуючи одиницю за зайнятий пункт та по одиниці за 8 кожен знищений полк противника. Кожен з командуючих повинен вирішити, як роподіляти полки по позиціях. У першого гравця (полковника Блотто) є п’ять стратегій, а саме X1={(4;0), (3;1), (2;2), (1;3), (0;4)}. Аналогічно, у капітана Кіже є чотири можливі стратегії, а саме X2={(3;0), (2;1), (1;2), (2;1)}. Згідно умови задачі, гра є антагоністичною. Представимо функцію виграшу першого гравця у вигляді таблиці. (4;0) (3;1) (2;2) (1;3) (0;4) (3;0) 4 1 -2 -1 0 (2;1) 2 3 2 0 1 (1;2) 1 0 2 3 2 (0;3) 0 -1 -2 1 4 Аналогічно попередньому прикладу, щоб формалізувати задачу, треба пронумерувати стратегії гравців та записати функцію виграшів першого гравця у вигляді матриці виграшів першого гравця.  4   1 A   2   1  0  2 3 2 0 1 1 0   0 1 2  2 .  3 1  2 4  Читачеві пропонується самостійно побудувати ігрові моделі для таких модифікацій розглянутої задачі. а) У полковника Блотто та капітана Кіже відповідно 4 та 3 полки (як і в розглянутому прикладі), але кожний взятий пункт оцінюється величиною α>0. б) У полковника Блотто та капітана Кіже по 4 полки. Визначити оптимальні стратегії гравців. (Підказка. Оскільки гра є симетричною, то не існує оптимальної стратегії, яка гарантовано приносила б додатній виграш (в кращому разі нуль). Тому зрозуміло, що оптимальною стратегію кожного з гравців буде направити всі полки на одну з позицій, тоді він гарантовано зіграє у нічию (якщо його противник зіграє аналогічно) або виграє додатню величину (якщо його противник зіграє іншим чином). Приклад 3.1 (Дилема злодія) Нехай поліцією затримано двох злодіїв і доведено їхню участь у незначних злочинах. Відомо, що кожен з них скоїв тяжкі злочини, але немає юридичних доказів. Поліція веде допит кожного із злочинців окремо і пропонує йому “співпрацю”, тобто дати свідчення проти свого “колеги”. Якщо обидва злочинці відмовляться від співпраці, то кожен з них отримає рік 9 ув’язнення (за незначні злочини). Якщо обидва злочинця підуть на співпрацю, то участь у тяжких злочинах обох з них буде доведено і з урахуванням факту співпраці кожен з них отримає п’ять років ув’язнення. Якщо на співпрацю піде один із злочинців, то йому простять участь у незначних злочинах і відпустять, але інший злочинець отримає десять років (він не матиме пом’якшуючих обставин).Таким чином, дану ситуацію можна представити у вигляді таблиці (де першому злочинцю відповідають рядки, другому - стовпці, у кожній клітинці перше число означає строк першого злочинця, друге - строк другого. Зрозуміло, що кожен із злочинців хоче мінімізувати свій строк. Оскільки всі задачі, що розглядаються, є задачами максимізації, то щоб не порушувати цю традицію, строк ув’язнення можна задати від’ємною величиною (що відповідає мірі страждання злодія). Не співпрацювати Співпрацювати Не співпрацювати (-1, -1) (0, -10) Співпрацювати (-10, 0) (-5, -5) Відзначимо, що для кожного із злочинців рішення співпрацювати домінує над рішенням не співпрацювати. Дійсно, розглянемо міркування першого злочинця. “Нехай я буду співпрацювати. Якщо другий також буде співпрацювати, то я отримаю 5 років а не 10, а якщо він не зізнається, то мене відпустять (замість 1 року)”. Таким чином, співпрацювати краще, ніж не співпрацювати незалежно від того, що вирішить другий. Зрозуміло, що другий злочинець проводить аналогічні міркування. Таким чином, обидва злочинці мають зізнатись і одержать по 5 років. Легко бачити, що дана пара рішень є єдиною точкою рівноваги за Нешем, але ця точка домінується за Парето парою рішень не зізнатись - не зізнатись (так вигідніше обом). Якщо злочинці не мають можливості координувати свої рішення, то зізнатись зізнатись є найбільш вірогідним. Якщо ж навіть вони мали можливість попередньої домовленості і прийшли до узгодження не зізнаватись, то порушення цього узгодження одним з них покращує його становище (але значно погіршує становище другого), що свідчить про відсутність рівноваги за Нешем і рішення не зізнатись - не зізнатись може базуватись тільки на взаємній довірі. Інша інтерпретація цієї задачі може бути такою. Нехай є дві країни, уряди яких вирішують, яку політику вести, щодо іншої країни – мирну чи агресивну. Якщо обидві країни дотримуються мирної політики, то їхні витрати на озброєння дорівнюють нулю. Якщо ж обидві країни ведуть агресивну політику, то їхні витрати на озброєння дорівнюють 1. Якщо ж агресивність проявляє одна країна, то вона завойовує іншу і за її рахунок компенсує свої витрати на озброєння і ще одержує додатковий прибуток (витрати –1 означає прибуток 1), але країна, яка вела мирну політику та не 10 змогла себе захистити, має витрати 2. Цю ситуацію можна прокоментувати за допомогою прислів’я “Країна, яка не хоче годувати свою армію, буде змушена годувати чужу”. Тут ситуація агресія-агресія відповідає ситуації зізнатись-зізнатись попереднього випадку і є точкою рівноваги за Нешем, але ця точка домінується за Парето ситуацією мир-мир (що відповідає ситуації не зізнатись – не зізнатись). Якщо дана гра проводиться один раз, то агресивність є найбільш вірогідним рішенням для обох країн. Якщо ж гра проводиться багато разів (наприклад, кожна з країн раз на рік вирішує, буде вона мирною чи агресивною), то країнам доцільно домовитись бути мирними по відношенню одна до одної. При цьому кожен з учасників переговорів каже “Ми будемо мирними доти, доки ви будете мирними. Якщо ж ви станете агресивними, ми також станемо агресивними.” Дійсно, несподівана агресивність однієї країни принесе їй на одному кроці додатковий прибуток 1. Але вона вимушена буде витратити цей прибуток вже на наступному кроці на протистояння агресивності іншої країни, а на наступних кроках вона матиме лише додаткові витрати. Мир Агресія Мир (0, 0) (2, -1) Агресія (-1, 2) (1, 1) Теорія корисності Фон Неймана – Моргенштерна Означення. Простою лотереєю називається множина {(a1,p1),(a2,p2),…,(an,pn)}, де Σpi=1, 0≤pi≤1, простий наслідок ai відбувається з ймовірністю pi. На множині наслідків вводиться бінарне відношення <, яке задовольняє двом аксіомам. А1. Будь-які два наслідки a,b можуть бути порівняні між собою, тобто a<b або b<a. Якщо a<b то ┐(b<a). Зауваження. Якщо якісь два або декілька наслідків є рівнозначними (що суперечить останній умові), то цього легко уникнути, обєднуючи в лотереї ці наслідки в один, при цьому відповідні ймовірності додаються). А2. Транзитивність. Якщо a<b та b<c то a<c. Аксіоми А1, А2 дозволяють встановити відношення лінійного порядку на множині наслідків, тобто перенумеровати наслідки таким чином, щоб an>an-1>…>a1. Іноді таке відношення може носити суб’єктивний характер, але в будь-якому разі воно повинно існувати. Наприклад, нехай в деякій художній лотереї розігруються картина та ваза, тобто існують три наслідки 11 a – не виграти нічого, b-виграти картину, c- виграти вазу. Тут для різних колекціонерів може бути два відношення лінійного порядку на множині переваг, а саме a<b<c або a<c<b. Для злочинця, що планує крадіжку, існує приблизно такий набір наслідків: a- крадіжка буде вдалою і це принесе матеріальний прибуток b- крадіжка буду невдалою. Ні прибутку, ні негативних наслідків с- охорона може затримати, побити та відпустити d- охорона може затримати та передати до міліції Зрозуміло, що з точки зору логіки злочинця a>b>c>d або a>b>d>c. Проблема порівняння наслідків зникає сама собою і згадані вище аксіоми виконуються автоматично, якщо всі наслідки пов’язані з отриманням грошових сум ai, де ai- дійсні числа (якщо ai<0 то це означає втрату суми –ai). Тут спрацьовує очевидне припущення, що чим більше грошей, тим краще. Коли на множині наслідків вводиться множина лотерей, то виникає проблема порівняння різних лотерей. На малюнку зображено спосіб графічного представлення простих лотерей, де в точках ai відбуваються стрибки pi. Нехай FL(x) – функція розподілу лотереї. Якщо x FL1 ( x)  FL 2 ( x) ,то лотерею st L1 називають стохастично більшою, ніж L2 і позначають L1  L2 . Але стохастично можна порівняти не всяку пару лотерей. y 1 0 a1 a2 a3 x Як порівнювати лотереї в цьому випадку? Звичайно, мірою лотереї природньо взяти її математичне сподівання {(a1,p1),(a2,p2),…,(an,pn)} ~ Σai∙pi і вважати більшою ту лотерею, для якої математичне сподівання більше. Але суб’єкт, що здійснює такий вибір не завжди буде дотримуватись такого критерію вибору. Наприклад, якщо комусь з читачів пощастить вибирати для себе одну з двох лотерей L1={($1 млн, 1)} та L2={($0, 0.9), ($1 млрд. , 0.1)}, то він напевно з задоволенням віддасть перевагу лотереї L1 та гарантовано отримає 1 мільйон, хоча математичне сподівання у першій лотереї в сто разів менше, ніж у другій. Для більшості населення і мільйон, і мільярд - це недосяжні фантастичні суми, які можуть вирішити всі матеріальні проблеми на протязі решти життя особи. 12 Нехай U(L)- цінність лотереї для особи, тобто мінімальна величина, яку особа згодна одержати замість того, щоб не брати участь в лотереї L (або максимальна величина, яку особа згодна заплатити за право участі в лотереї L). Ця величина може бути різною для різних осіб. Особа називається схильною до ризику, якщо для неї оцінка лотереї більша її математичного сподівання, не схильною до ризику, якщо менша і байдужою – якщо ці величини співпадають. Феномен схильності до ризику є основою ігорного бізнесу, не схильності – страхування. Означення. Складна лотерея задається як L={(L1,q),(L2,1-q)}, де з ймовірністю q вибирається лотерея L1 та з ймовірністю 1-q лотерея L2. Аксіома складної лотереї. Будь-яка складна лотерея еквівалентна простій лотереї з таким самим розподілом остаточних наслідків. Зауваження. Щоб по складній лотереї побудувати еквівалентну просту лотерею, треба переобчислити ймовірності можливих наслідків за формулою повної ймовірності та впорядкувати наслідки в порядку зростання. Якщо якийсь наслідок зустрічається і в L1 та в L2 то ці наслідки треба обєднати в один та додати відповідні ймовірності.Наприклад, нехай L1={(0, 0.4),(1, 0.6)}, L2={(1, 0.3),(2, 0.7)}, L={(L1,0.8), (L2, 0.2)}. Тоді L~{(0, 0.4∙0.8), (1, 0.6∙0.8), (1, 0.3∙0.2), (2, 0.7∙0.2)}. Обєднуючи другий та третій наслідок (1 ) в один та обчислюючи сумарну ймовірність цього наслідка 0.6∙0.8+0.3∙0.2=0.54, маємо: L={(0, 0.32), (1, 0.54), (2, 0.14)}. Розглянемо аксіоми лотерей, на яких базується теорема Фон Неймана – Моргенштерна – основний результат теорії корисності. Нехай L-множина всіх лотерей. А1L Впорядкованість а) Асиметрія p  q  (q  p), p, q  L. б) Транзитивність. p  q, q  r  p  r, p, q, r  L . А2L. Незалежність p, q, r  L,   [0;1], p  q  p  (1   )r  q  (1   )r. Дана властивість вимагає інваріантності відношення при будь-яких (лінійних) комбінаціях лотерей. З формальної точки зору вона виглядає логічно, але існує багато експериментальних прикладів, які прагнуть спростувати дану аксіому (один з таких наведено нижче). А3L. Неперервність. p  q, q  r  P,  ,   (0,1) такі, що  p  (1   )r  q та q   p  (1   )r . В дещо іншому формулюванні ця умова звучить так: для всіх p  q, q  r  P існують такі відкриті множини чисел  ,   (0,1) , що  p  (1   )r  q та 13 q   p  (1   )r . Стандартна аксіома, яка також викликає нарікання зі змістовної точки зору. Зрозуміло, що $1 >$0.99 > смертна кара, але чи існує таке α<1, що α∙$1+(1-α)∙(смертна кара)>0.99. “Теоретично” даний приклад спростовує А3L, однак з практичної точки зору хто з нас не перебігав дорогу у невстановленому місці чи нехтував сигналами світофора та таким чином ризикував життям з ненульовою ймовірністю заради незначної вигоди? A1L-A3L гарантують існування функції корисності НейманаМоргенштерна, яка є основною тезою в теорії економічного вибору в умовах ризику, зокрема в теорії ігор. Теорема Неймана-Моргенштерна. Нехай справедливі аксіоми А1L-А3L на множині всіх простих лотерей. Тоді на множині наслідків існує така функція корисності u(x), що переваги індивідів на множині лотерей можна представити у вигляді математичного сподівання цієї функції, тобто U(p)=Σp(x)u(x) і це представлення має наступні властивості: 1. Зберігання порядку (p, q  L)( p  q  U ( p)   p ( x)u ( x)   q ( x)u ( x)  U (q )) . 2. Лінійність по ймовірностях p, q, r  LU [ p  (1   )q]  U ( p)  (1   U (q) 3. Визначеність з точністю до афінної трансформації Якщо на даній множині лотерей, існує інша функція корисності V(.), то V ( p)  a  bU ( p), a, b  0 . Зберігання порядку гарантує представлення переваг, дозволяє ввести дійснозну функцію U(.), яку можна трактувати як функцію корисності. Лінійність по ймовірностях на всіх простих лотереях забезпечує представлення будь-якої такої функції як математичне сподівання лотерей, що її складають (за умови, що достовірний наслідок трактується як лотерея [x,1]). 14 Антагоністичні ігри Сідлові точки та антагоністичні ігри Нехай функція F(x,y) визначена на декартовому добутку X×Y, де X,Y – множини довільної природи. Означення. Пара ( x0 , y0 )  X  Y називається сідловою точкою функції F(x,y) на X×Y, якщо F ( x, y 0 )  F ( x 0 , y 0 )  F ( x 0 , y) x  X , y  Y (2.1) Або, що є еквівалентним max F ( x, y 0 )  F ( x 0 , y 0 )  min F ( x 0 , y ) . yY xX Таку незвичайну термінологію можна пояснити наступним чином. Нехай сідло одягнене на коня та голова коня знаходиться навпроти голови спостерігача. Через центр сідла проведемо осі координат, вісь OX – поперек тіла коня, а вісь OY – вздовж, OZ – догори. Розглянемо z-координати точок поверхні сідла як функцію від x та y, z=F(x,y). Тоді виходить, що точка (x0,y0)=(0,0) є сідловою точкою згідно наданого означення. Дійсно, якщо розглянути перетин сідла площиною XOZ, то матимемо фігуру, схожу на параболу, вітки якої направлені вниз з вершиною в т. (x0,y0) та F(x,y0)≤F(x0,y0). В перетині сідла площиною YOZ матимемо “параболу”, вітки якої направлені догори з вершиною в т. (x0,y0) та F(x0,y0)≤F(x0,y). Означення. Гра в нормальній формі називається антагоністичною, якщо в ній беруть участь два гравці (тобто N={1, 2}) та для будь-яких значень (x  X , y  Y ) ( F2 ( x, y)   F1 ( x, y)) (тобто у всіх можливих ситуаціях виграш одного гравця дорівнює програшу другого). Позначимо F(x,y)=F1(x,y), тоді метою першого гравця є максимізація функції F(x,y), другого – її мінімізація. Сама гра задається набором   X , Y , F ( x, y)  . Зрозуміло, що всі азартні ігри, в яких беруть участь два гравці, є антагоністичними. Антагоністичними є і ігри проти казино, якщо вважати казино гравцем. В розділі “Стратегічна еквівалентність ігор” буде доведено, що ігри, в яких сума виграшів двох гравців – константа F1(x,y) + F2(x,y)=c (такі ігри називаються іграми з фіксованою сумою) , зводяться до антагоніс15 тичних. Нестрого, але наочно це можна показати таким чином. Нехай два гравці грають у гру з фіксованою сумою (наприклад, два тенисисти у фіналі змагаються за розподіл призового фонду). Тут призовий фонд – це не їхні власні гроші, це гроші, надані зовнішньою організацією. Але дана ситуація еквівалентна такій, що нехай спочатку призовий фонд розділили навпіл та роздали гравцям, а потім вони ведуть антагоністичну гру. Поняття сідлової точки використовується в антагоністичній грі. Дійсно, нехай гравці вибрали в якості стратегій компоненти x0, y0 сідлової точки, то кожному з них невигідно відхилятись від вибраної стратегії за умови, що другий гравець буде її притримуватись, тобто, має місце рівновага за Нешем. Означення. Говорять, що антагоністична гра Г має рішення, якщо функція F(x,y) має на X×Y сідлову точку. Нехай (x0,y0) – сідлова точка функції F(x,y). Тоді трійка (x0,y0, v=F(x0,y0) ) називається розв’язком гри, x0,y0 – оптимальними стратегіями гравців, а v – значенням гри. Покажемо, що значення гри не залежить від вибору сідлової точки. Лема 1.2. Якщо (x0,y0), (x*,y*) – дві сідлові точки функції F(x,y) на X×Y, то F(x0,y0)=F(x*,y*). Доведення. Поряд з (2.1) випишемо аналогічний ланцюжок нерівностей для сідлової точки (x*,y*). F ( x, y * )  F ( x* , y * )  F ( x* , y) x  X , y  Y (2.2) Звідси * F ( x , y * )  (2.2) F ( x* , y 0 )  (2.1) F ( x 0 , y 0 )  (2.1) F ( x 0 , y * )  (2.2) F ( x* , y * ) . Такий ланцюжок нерівностей може бути справедливим лише тоді, коли всі нерівності виконуються як рівності, отже F(x0,y0)=F(x*,y*). Найважливіним класом антагоністичних ігор є матричні ігри. Означення. Антагоністична гра Г називається матричною, якщо множини стратегій гравців скінчені: X={1,…,m}, Y={1,…,n}. При цьому прийнято позначати стратегію першого гравця через i, другого через j, а виграш першого F(i,j) через ai,j. Матриця А=(aij)mxn називається матрицею гри. Перший гравець вибирає в ній номер рядка i, а другий – номер стовпця j. Згідно позначень матричної гри (i0,j0) – сідлова точка матриці A, якщо aij0≤ ai0j0≤ai0j. Іншими словами, сідлова точка матриці – це такий її елемент, який одночасно є мінімальним елементом свого рядка та максимальним елементом свого стовпця. Відзначимо, що не всі матричні ігри мають сідлову точку. Наприклад, як легко переконатись, сідлової точки не має матрична гра “камінь, ножиці, папір” з платіжною матрицею  0 1  1   A   1 0 1  .  1 1 0    16 Таким чином, виникає два природніх запитання, щодо сідлових точок, а саме: 1) Коли антагоністична гра має розв’язок, тобто, коли функція F(x,y) має сідлову точку на XxY? 2) Як шукати сідлові точки, якщо відомо, що вони існують? Розглянемо гру Г з точки зору першого гравця. Нехай він вибрав стратегію X. Тоді зрозуміло, що його виграш буде не менш, ніж inf F ( x, y). Назвемо цю величину гарантованим виграшем першого гравця. yY Найкращий гарантований виграш першого гравця складає v  sup inf F ( x, y )  xX yY (ця величина називається нижньою ціною (або нижнім значенням) гри, чому саме нижньою, буде зрозуміло далі). Означення. Стратегія x0 першого гравця називається максимінною, якщо inf F ( x 0 , y )  v . yY  Розглянемо гру Г з точки зору другого гравця. Якщо він вибрав стратегію y, то для нього є природнім вважати гарантованим результатом величину sup F ( x, y). . Програш другого гравця буде не більшим, ніж ця xX величина. Найкращий гарантований результат для другого гравця складає  v  inf sup F ( x, y ) і називається верхньою ціною (або верхнім значенням) гри. yY xX Означення. Стратегія y0 другого гравця називається мінімаксною, якщо inf F ( x 0 , y)  v . yY  Лема 2.2. В будь-якій антагоністичній грі Г справедлива нерівність  v  v.  Доведення. Візьмемо довільні стратегії гравців x та y. Тоді inf F ( x, y)  F ( x, y )  sup F ( x, y)  inf F ( x, y)  sup F ( x, y ) . yY xX yY xX Ліва частина нерівності залежить від x, а права – ні, це означає, що нерівність є справедливою для будь-яких значень x  X , та отже sup inf F ( x, y )  sup F ( x, y ) . В даній нерівності права частина залежить від y, а xX yY xX ліва – ні, отже нерівність справедлива для будь-яких значень y, отже  sup inf F ( x, y )  inf sup F ( x, y ) , тобто v  v , що й треба було довести. xX yY yY xX  Тепер сформулюємо необхідні та достатні умови існування сідлової точки для функції двох змінних. Теорема 1.2 1) Для того, щоб функція F(x,y) на XxY мала сідлову  точку, необхідно та достатньо, щоб виконувалась рівність v  v (*).  2) Нехай виконана рівність (*). Пара x , y тоді і тільки тоді є сідловою точкою, коли x0- максимінна, а y0 – мінімаксна стратегії гравців. Доведення. Твердження 1 та 2 будемо доводити одночасно. 0 17 0 Необхідність. Нехай (x0,y0) – сідлова точка функції F(x,y). Покажемо, що виконана рівність (*), а x0, y0 – максимінна та мінімаксна стратегії гравців. Маємо   v  sup F ( x, y 0 )  F ( x 0 , y 0 )  v  inf F ( x 0 , y )  v  v  v . yY xX     З іншого боку, згідно доведеної вище леми, v  v , отже, v  v і всі   нерівності останнього ланцюжка виконуються як рівності. З даних рівностей випливає, що x0- максимінна, а y0 – мінімаксна стратегії гравців. Достатність. Нехай рівність (*) виконана. Візьмемо x0- максимінну та y0 – мінімаксну стратегії та покажемо, що вони утворюють сідлову точку. Маємо:  F ( x 0 , y 0 )  inf F ( x 0 , y )  v  v  sup F ( x, y 0 )  F ( x 0 , y 0 ). yY  xX В усіх нерівностях можна поставити знаки рівності, отже, згідно означення, (x0,y0) – сідлова точка функції F(x,y). Зауваження. Якщо виконана рівність (*), то множина всіх сідлових точок співпадає з X0xY0, де X0 та Y0 – множини всіх максимінних та мінімаксних стратегій гравців. Приклад 1.2. Знайти всі сідлові точки матриці. 7 1  4 1    3 2  4 2 A 2 2 5 2     4  3 7  2      Тут (min ai , j )  (4, 2, 2,  3) та max ai , j  (7, 2, 7, 2) . Звідси v  v  2 , 1 j  4 1i  4  X0={2, 3}, Y0={2,4}. Чотири сідлові точки (2,2), (2,4), (3,2) та (3,4) утворюють множину X0×Y0. Вправа. 1) Знайти квадратну матрицю мінімальної розмірності, що має 7 сідлових точок. 2) Перелічити всі можливі кількості сідлових точок, які може мати матрична гра 3×3. Навести приклади відповідних платіжних матриць. Приклад 2.2. Нехай X=Y=[0,1], F(x,y)=2x2-3xy+2y2. Знайдемо значення верхньої та нижньої ціни гри. При фіксованому x мінімум по y функції F(x,y) 3 4 досягається в точці y( x)  x  Y . Тому функція мінімуму має вигляд W ( x)  min F ( x, y)  F ( x, y( x))  0 y 1 7 2 7 x . Звідси v  та x0=1 – максимінна стратегія.  8 8 При фіксованому у максимум функції F(x,y) по x досягається відрізку [0,1] та дорівнює 18 на кінцях  def  M ( y )  max F ( x, y )  max F (0, y ), F (1, y )   max 2 y 2 ,2  3 y  2 y 2  0 x 1 2  3 y  2 y 2 , 0  y  2 / 3 .  2 2 y , 2 / 3  y  1  8 9 7 8 Мінімум функції M(y) досягається при y0=2/3 та v  M ( y 0 )   v  .   Отже, функція F(x,y) не має сідлової точки на заданій області визначення. Теорема 2.2. Нехай функція F(x,y) неперервна на X×Y, де X,Y – def компакти метричних просторів. Покладемо Y ( x)  Arg min F ( x, y) . Тоді yY 1) Функція мінімуму W ( x)  min F ( x, y) неперервна на X. yY 2) Припустимо додатково, що при кожному x  X множина складається з єдиного елемента y(x). Тоді функція y(x) неперервна на Х. Доведення даної теореми наведено, наприкладд, в [3]. Нагадаємо лише, що компактом називають замкнену обмежену множину. В задачах і прикладах це, як правило, відрізок, рідше – прямокутник. Приклад 3.2. Нехай X=[-1;1], Y=(-∞; +∞), F(x,y)=(y2+1)(xy-1)2 Тут множина Y не є компактом, а функції 1 / x, x  0 y ( x)   ; 0 , x  0  0, x  0 W ( x)  min F ( x, y )   yY 1, x  0 розривні. Означення. Антагоністична гра Г називається неперервною, якщо X,Y – паралелепіпеди євклідових просторів, а функція F(x,y) є неперервною на X×Y. Зокрема, при X=[a,b], Y=[c,d] будемо говорити про неперервну гру на прямокутнику. З теореми 2 випливає, що в неперервній грі Г існують максимінні та мінімаксні стратегії гравців. Тепер займемося достатніми умовами існування сідлової точки функції двох змінних. Їх можна сформулювати в термінах опуклого аналізу. Нагадаємо деякі означення. Означення. Множина Z евклідового простору називається опуклою, якщо для будь-якої пари точок z   z  з Z та будь-якого числа 0<λ<1 точка z   (1   ) z  також належить множині Z. Означення. Функція h(z), яка визначена на опуклій множині Z називається опуклою, якщо для будь-яких точок z   z  з Z та будь-якого числа 0<λ<1 справедлива нерівність h(z   (1   ) z )  h( z )  (1   )h( z ) 19 Якщо остання нерівність виконується як строга, то функція називається строго опуклою. Ящо замість нерівності ≤ виконується ≥ (>), то функція називається вгнутою (строго вгнутою). Зауваження до означення. Дехто з читачів міг стикатись в шкільному курсі з понятям опуклості фукції (скоріш усього, однієї змінної), яке є повністю протилежним даному. Там вводилось поняття опуклої догори (яка також називалась просто опуклою) та опуклою вниз (також називалась вгнутою) функції. Якщо функція- двічі диференційовна, то вважалося, що для опуклої функції f΄΄(x)<0, а для вгнутої f΄΄(x)>0. Також було “неформальне” правило запамятовування “графік опуклої функції відштовхує воду, що ллється зверху, а а вгнутої – збирає її”. Якщо читач притримується такої точки зору, йому прийдеться перевчатись і дотримуватись наведених означень, оскільки в такому вигляді вони фігурують у багатьох математичних курсах. Якщо ні – то краще забути про дане зауваження. В разі непорозуміння яку функцію вважати опуклою треба наприклад відповісти на запитання “y(x)=x2 – опукла чи вгнута? Згідно наведеного означення –опукла. Вправа. Довести, що строго опукла функція на опуклому компакті євклідового простору досягає мінімуму в єдиній точці. Теорема 3.2. Нехай X  E m , Y  E n - опуклі компакти євклідових просторів, а функція F(x,y) є неперервною на X×Y. Припустимо, що при будь-якому y  Y функція F(x,y) вгнута по x та при будь-якому x  X вона опукла по y. Тоді функція F(x,y) має на X×Y сідлову точку. Доведення. Спочатку доведемо існування сідлової точки у випадку, коли функція строго опукла по y. Тоді для будь-якого x  X функція F(x,y) досягає мінімуму в єдиній точці y(x). За теоремою 2 функції W ( x)  min F ( x, y) yY та y(x) неперервні на X. Візьмемо точку x , яка максимізує функцію W(x) на X та доведемо, що пара (x*,y(x*)) є сідловою точкою функції F(x,y). *  Для будь-яких x та 0<t<1 покладемо y  y((1  t ) x *  tx) . В силу вгнутості по х функції F(x,y) маємо:  _   W ( x * )  W ((1  t ) x *  tx)  F ((1  t ) x *  tx, y)  (1  t ) F ( x * , y)  tF ( x, y)  (1  t )W ( x * )  tF ( x, y).  Звідси tF ( x, y)  tW ( x * ). Скоротивши на t та прямуючи t  0 маємо нерівність для сідлової точки F ( x* , y( x* ))  W ( x* )  F ( x* , y( x* ))  F ( x* , y) x  X , y  Y Доведемо теорему в загальному випадку. При ε>0 функція def n F ( x, y)  F ( x, y)    y 2j неперервна, вгнута по x та строго опукла по y. Згідно j 1 доведеного вище, функція Fε(x,y) має сідлову точку на X×Y: F ( x, y  )  F ( x  , y  ))  F ( x  , y) x  X , y  Y . 20 Візьмемо послідовність додатніх чисел { εk} , яка збігається до нуля. З компактності множин X та Y випливає, не втрачаючи загальності міркувань, збіжність x  k  x 0 , y  k  y 0 . Покладаючи в останніх рівностях ε =εk та переходячи до границі при k→∞, одержимо нерівності, які визначають сідлову точку ■. Відзначимо, що перша частина доведення теореми є конструктивною: для пошуку сідлової точки функції F(x,y), строго опуклої по у, достатньо знайти максимінну стратегію x* та найкращу відповідь на неї y(x*) другого гравця. Аналогічно, нехай в умовах теореми 2.3 функція F(x,y), строго вгнута по х, y*- максимінна стратегія, а x( y * )  Arg max F ( x, y * ) - найкраща відxX повідь на неї першого гравця. Тоді, (x(y*),y*) – сідлова точка функції F(x,y). З першої частини доведення випливає, що для існування сідлової точки замість строгої опуклості F(x,y) за змінною y достатньо виконання вимоги для будь-якого x  X єдність найкращої відповіді y(x) другого гравця. Якщо ж остання вимога не виконується, то пара (x*,y*), де y *  Y ( x* ) може не бути сідловою точкою. Наприклад, для функції F(x,y)=xy на X×Y =[0,1] ×[0,1] пара (x*,y*)=(0,1) не є сідловою точкою. Приклад 3.2. X=Y=[0, 1], F(x,y)=-x2+y3+xy2-4y. Тут функція F(x,y) опукла по y та строго ргнута по x. Функція найкращої відповіді першого гравця дорівнює x(y)=y2/2 та M ( y)  max F ( x, y)  F ( x( y), y)  0 x 1 y4  y 3  4 y. 4 Похідна M ( y)  y  3 y  4 перетворюється на нуль в точках 1 та -2 (але -2 не належить допустимій області). Звідси y0 – мінімаксна стратегія та x(y0)=1/2. Отже, (1/2, 1) – сідлова точка функції F(x,y). ' 3 2 Мішане розширення антагоністичної гри Виявляється, що верхню та нижню ціну гри можна ще трактувати таким чином. Відійдемо тимчасово від припущення про одночасність та незалежність виборів гравців та розглянемо два випадки. 1) Нехай перший гравець робить свій вибір x  X , повідомляє про нього та другий гравець робить свій хід на підставі одержаної інформації (звичайно, цим ходом буде y( x)  arg min F ( x, y) . Якщо гравці діють yY оптимальним чином, то ціною такої гри буде нижня ціна вихідної гри v .  2) Нехай тепер навпаки, другий гравець робить свій вибір y  Y , повідомляє про нього та перший гравець робить свій хід на підставі одержаної інформації (звичайно, цим ходом буде x( y)  arg max F ( x, y ) . Якщо xX гравці діють оптимальним чином, то ціною такої гри  вихідної гри v . 21 буде верхня ціна Отже, доведена вище нерівність, щодо верхньої та нижньої ціни гри  v  v має простий фізичний зміст: при інших рівних умовах краще (точніше,  не гірше) одержати інформацію від суперника, щодо його намірів, ніж інформувати його. Ситуація існування сідлової точки, що відповідає випадку  v  v означає, що немає ніякої користі в інформованості, щодо намірів  суперника і навпаки, самому гравцю нема сенсу тримати в тайні свої наміри. Але така ситуація має місце не завжди. Так, в попередньому параграфі було наведено приклад антагоністичної гри, яка не має розв’язку в чистих стратегіях (камінь, ножиці, папір). Зрозуміло, що в цій грі інформуючий гравець завжди програє а проінформований виграє. Припустимо, що вибір здійснюється гравцями одночасно та повторюється декілька разів. Нехай перший гравець програв. Що йому робити далі? Грати так само – так знову можна програти таким самим чином. Змінити стратегію – а раптом інший гравець здогадається, що він не хоче весь час програвати, дотримуючись однієї й тієї ж самої стратегії. Теорія ігор пропонує гравцям використовувати мішані стратегії. Означення. Мішаною стратегією першого (другого) гравця називається ймовірнісний розподіл φ на множині стратегій X (відповідно Y). Для першого гравця вибрати мішану стратегію φ означає вибирати стратегію x  X як реалізацію випадкової величини, що має закон розподілу φ. Нехай X={1,…,m} (як в матричній грі). Тоді замість φ для позначення мішаної стратегії будемо використовувати “ймовірнісний” вектор P=(p1,p2,…,pm), який задовольняє обмеженням m p i 1 i  1, pi  0, i  1,..., m . Фактично це означає, що перший гравець вибирає i-й рядок з ймовірністю pi. Аналогічно, мішана стратегія другого гравця описується вектором Q=(q1,q2,…,qm) і фактично це означає, що другий гравець вибирає j-й стовпець з ймовірністю qj. При цьому множина мішаних стратегій першого гравця утворює (m-1) – мірний симплекс, який натягнутий на орти e1=(1,0,…,0), e2=(0,1,…,0), ….. m e =(0,0,…,1). Такий симплекс називають фундаментальним. Аналогічнимчином визначається (n-1)-мірний симплекс для мішаних стратегій другого гравця. У випадку m=2 симплекс є відрізком, а при m=3 – трикутником (див. мал.). 22 Відзначимо, що початковий набір стратегій як множина точок багатовимірного простору не є опуклою множиною. Введення поняття мішаних стратегій розширює множину стратегій до опуклого замикання множини чистих стратегій (тобто мінімальної опуклої множини, що містить e1, e2,…, em (позначається Co(e1, e2,…, em)). Для кожної мішаної стратегії гравця x  X ( y  Y ) множини його чистих стратегій, які входять в цю стратегію з додатньою ймовірністю називають спектром стратегії та позначають sp(p) (sp(q)). Звичайно, для чистої стратегії її спектр складається з однієї цієї стратегії. В матричній грі мішані стратегії першого та другого гравців є випадковими величинами. Будемо вважати, що ці випадкові величини є незалежними. В цьому випадку пара мішаних стратегій утворює ситуацію. В результаті застосування мішаних стратегій ситуація виявляється випадковим випробуванням з mn можливими наслідками. Ціною гри в цьому випадку прийнято називати математичне сподівання m n виграшу першого гравця, тобто F ( p, q)   pi ai j q j , або у векторній формі i 1 j 1 F ( p, q)  P AQ . T  Таким чином, Г  P, Q, F ( P, Q) - це мішане розширення матричної гри Г. Відзначимо, що функція виграшу F(p,q) є білінійною, щодо аргументів pi та qj.Зауважимо, що навіть у випадку нелінійного відношення гравців до ризику в кожному окремому випадку можна замінити виграші на їхні корисності для гравців таким чином, щоб функція виграшу залишалася білінійною (див. розділ “Теорія корисності Фон-Неймана - Моргенштерна”). Теорема 4.2 (Основна теорема матричних ігор). Будь-яка матрична гра має розв’язок в мішаних стратегіях. Доведення. Достатньо показати, що функція F(p,q) має сідлову точку на P×Q. Множини P,Q є багатогранниками євклідових просторів (отже, є 23 компактами), а функція F(p,q) білінійна і отже є неперервною на P×Q, вгнута (і доречі, одночасно опукла) по p та опукла (та одночасно вгнута) по q. За теоремою 3.2 функція F(p,q) має на P×Q сідлову точку. Відзначимо типові випадки, коли застосовується мішана стратегія. 1) Гра повторюється багато разів. В цьому випадку за велику кількість повторень гри середній виграш першого гравця, який використовує оптимальну мішану стратегію, буде близьким до значенню гри або буде перевищувати його. 2) Мішана стратегія як навмисна невизначеність для противника. Наприклад, іспит. Викладач не має фізичної можливості контролювати знання кожного студента в повному обсязі, тому програма курсу розбивається на білети і вибір білета здійснюється випадковим чином. Окремі питання можуть повторюватись або бути близькими (це й визначає мішану стратегію викладача). Щоб запобігти одержати погану оцінку в несприятливому для себе випадку, студент вимушений знати програму всього курсу більш-менш рівномірно. Другий приклад – система контролю на транспорті. Проїздні квитки перевіряються не кожного разу, але контроль здійснюється випадковим чином та сума штрафу багаторазово перевищує вартість квитка. Така стратегія контролю стимулює пасажирів купляти проїздні квитки кожного разу. Третій випадок – азартні ігри. Гравець не може передбачити наслідок гри, але витрачає гроші, сподіваючись на реалізацію сприятливого для себе наслідку. Наприклад, мішана стратегія колеса рулетки – це вибір кожного з чисел від 0 до 36 з ймовірністю 1/37. 3) Мішана стратегія як фізична суміш ресурсів. Наприклад, нехай фермер має земельну ділянку, яку може засіяти трьома сільськогосподарськими культурами у будь-якій пропорції на свій розсуд. При цьому рік може виявитись нормальним, посушливим або дощовим (тобто, в ролі другого гравця виступає природа). Нехай H=(hi j )3×3 – матриця, що задає врожайність i-ї культури при j-му стані природи, bi – ціна за продукцію i-го виду. Тоді A=(bi hi j) 3×3 - матриця гри, де виграш фермера – вартість продукції, що виробляється. Тут слід зауважити, що ігри проти природи відрізняються від ігор проти суперника хоча б тим, що природа не має мотивів діяти проти гравця-людини. Точніше сказати, що вона індеферентна, щодо інтересів гравця. Розглянемо інший приклад. Нехай деяка букмекерська контора приймає ставки на наслідок футбольного матчу і пропонує такі коефіцієнти виплати: за виграш команди A – 2, виграш команди В – 3, за нічию -7 (зрозуміло, що три перелічені наслідки є взаємовиключними). Покажемо, що дана пропозиція є невигідною для букмекера, тобто гравець, що має деяку суму, може утворити таку її суміш та поставити частини на три вказані наслідки, щоб в результаті отримати гарантований виграш (гарантований виграш в азартних та комерційних іграх носить назву арбітраж). Дійсно, нехай гравець утворить “суміш” своєї суми в такій пропорції: 0.51 – на виграш А (тоді у разі сприятливої події він отримає 0.51∙2=1.02), на виграш В 24 – 0.34 (0.34∙3=1.02) та решту (0.15) – на нічию (тоді 0.15∙7=1.05). Очевидно, при будь-якому наслідку гравець одердує гарантований виграш у розмірі 2 відсотки від поставленої суми. Читачеві пропонується розглянути загальний випадок даної задачі. Нехай є n взаємно виключних наслідків, що утворюють повну групу подій (тобто завжди реалізується лише один наслідків) та за вгадування реалізації наслідку i ставка множиться на коефіцієнт ki. Треба показати, що а) якщо гравець хоче максимізувати свій гарантований виграш, то він повинен розподілити свою суму S обернено-пропорційно коефіцієнтам виплат, тобто на i-й наслідок ставити суму уникнення арбітражу для букмекерської контори є n 1 k i 1 1 ki n 1  i 1 k i  S . б) Умовою  1. i Матрична гра та задачі лінійного програмування Задачі лінійного програмування (пряма та двоїста) тісно повязані з матричною грою. Нехай гра задана платіжною матрицею Amn  aij , i  1,..., m, j  1,..., n. Будемо вважати, що всі елементи даної матриці невід’ємні. Якщо це не так, то в матриці A виберемо максимальне за модулем від’ємне число (-k) та додамо до всіх елементів число k+1, тоді всі елементи отриманої матриці стануть невід’ємні. При цьому, сідлова точка даної матриці буде така сама, як і у вихідної матриці. Якщо ціну нової гри зменшити на к, то отримаємо ціну вихідної гри. Надалі, не втрачаючи загальності міркувань, будемо вважати, що всі елементи матриці додатні. Перший гравець має m чистих стратегій, а саме wi=(0,..,1i,0,..,0)Т, i=1,…,m а другий гравець має n чистих стратегій vj=(0,..,1j,0,..,0)Т, j=1,…,n. Позначимо стратегії першого та другого гравців * x  P  ( p1 ,..., pm ) T , y *  Q  (q1 ,..., qn ) T , де координати векторів означають ймовірності вибору гравцями відповідних чистих стратегій. Про такі стратегії відомо, що p1  ...  pm  1, q1 ...  qn  1. Оптимальна стратегія P забезпечує середній виграш першому гравцю не менший, ніж ціна гри v при будь-якій стратегії другого гравця, в тому числі і проти кожної його чистої стратегії. І навпаки, в силу білінійності функції середнього виграшу, якщо деяка стратегія першого гравця забезпечує йому середній виграш не менший v проти кожної чистої стратегії другого гравця, то виграш першого гравця проти будь-якої ймовірнісної суміші (або іншими словами, симплексу) дркугого гравця буде не менший v. Тобто, справедлива система нерівностей p1a1 j  p2 a2 j  ...  pm amj  v, 25 j  1,..., n. Розділимо всі нерівності системи на v та введемо позначення x1  p p1 ,..., x m  m , тоді система обмежень набуває виду v v a1 j x1  ...  a mj x m  1, j  1,..., n (*) 1 x1  ...  x m  v Розглянемо останню рівність. Максимізація ціни гри v еквівалентна мінімізації оберненої величини 1 . Тому задачу визначення xj можна v переформулювати наступним чином. Визначити значення змінних xj так, щоб вони задовольняли лінійним обмеженням (*) та при цьому лінійна функція Z=x1+x2+…+xm набувала б мінімуму. Після розв’язку даної задачі лінійного програмування відновлюємо спочатку ціну гри v  1 а потім компоненти m x j 1 j вектора оптимальної стратегії першого гравця: pi=vxi, i=1,…,m. Міркування другого гравця аналогічні. Оптимальна стратегія Q забезпечує йому середній програш не більший, ніж ціна гри v при будь-якій стратегії першого гравця, в тому числі і проти кожної його чистої стратегії, таким чином, виконані нерівності ai1q1  ...  ain qn  v, i  1,..., m . Кожну з нерівностей ділимо на v, при цьому можна вважати, що v>0. q q1 ,..., y n  n , тоді система обмежень набуває вигляду v v ai1 y1  ...  ain y n  1, i  1,..., m (**) 1 y1  ...  y n  v 1 Мінімізація ціни гри v еквівалентна максимізації . Тому задачу v Введемо нові змінні y1  визначення yj, j=1,…,n можна переформулювати наступним чином. Визначити значення змінних yj≥0, j=1,…,n так, щоб вони задовольняли системі лінійних обмежень (**) та функція Z*=y1+…+yn набувала б максимуму. Після розв’язку даної задачі лінійного програмування, відновлюємо спочатку ціну гри v  1 а потім компоненти вектора n y i 1 i оптимальної стратегії другого гравця: qj=vyj, j=1,...,n. Таким чином, розв’язок матричної гри звівся до розв’язку пари задач лінійного програмування. Безпосередньо з формул випливає, що це пара двоїстих задач. З прямої задачі (задача на максимум) знаходиться оптимальна стратегія другого, а з двоїстої (задача на мінімум) – оптимальна стратегія першого гравця. Приклад 4.2. Розв’язати матричну гру з матрицею А методом лінійного програмування. 26 3 6 8   A   9 4 2  7 5 4   Знайдемо нижню ціну гри vн  max min aij  max(min{3,6,8}, min{9,4,2},min{7,5,4})  max( 3,2,4)  4  0. j i Оскільки v Н  4  0 , то задачі лінійного програмування пишемо безпосередньо для матриці А. (Взагалі кажучи, для того, щоб ціна гри була строго додатньою, достатньо, щоб матриця мала рядок з додатніми компонентами, або якась симплекс комбінація рядків (наприклад, напівсума) була б додатньою). Запишемо пряму та двоїсту задачі лінійного програмування. z ( x)  x1  x 2  x3  min 3x1  9 x 2  7 x3  1 6 x1 4 x 2  5 x3  1 8 x1  2 x 2  4 x3  1 y j  0, j  1,2,3 f ( y )  y1  y 2  y 3  max 3 y1  6 y 2  8 y 3  1 9 y1  4 y 2  2 y 3  1 7 y1  5 y 2  4 y 3  1 x j  0, j  1,2,3 Додамо в пряму задачу балансні змінні (представимо її в канонічній формі) та занесемо в симплекс-таблицю: f ( y )  y1  y 2  y 3  max 3 y1  6 y 2  8 y 3  y 4 1 9 y1  4 y 2  2 y 3  y5 1 7 y1  5 y 2  4 y 3  y6  1 y j  0, j  1,2,3 Перша та остання симплекс-таблиці мають вигляд: CБ xБ\xj y4 y5 y6 Δ y5 y1 y2 Δ 1 y1 3 9 7 -1 0 1 0 0 1 y2 6 4 5 -1 0 0 1 0 1 y3 8 2 4 -1 22/27 -16/27 44/27 1/27 0 y4 0 y5 1 0 0 0 17/27 -5/27 7/27 2/27 0 1 0 0 1 0 0 0 0 y6 β 0 0 1 0 -14/9 2/9 -1/9 1/9 1 1 1 0 2/27 1/27 4/27 5/27 Всі оцінки невід’ємні, отже розв’язок знайдено. Компоненти розв’язку прямої задачі знаходимо у стовпці правих частин, а розв’язку двоїстої задачі – у рядку оцінок при балансних змінних останньої симплекс-таблиці. Отже, 27  1 y ,  27 T T 4 1   2 . 0  , x   , 0,  . Значення ціни гри прямої та двоїстої 27 9   27 задач (вони, звичайно мають співпадати) знаходимо як величини, обернені до суми компонент знайдених розв’язків. Доречі, величину, обернену до ціни гри також обчислено у правій нижній клітині останньої симплекс-таблиці: Fmax  1 1 4  27 27  Z min  1 2 1  27 9  27  v. 5 Знаючи розв’язок задачі, обчислимо оптимальні стратегії гравців (не забуваємо, що стратегія першого гравця визначається з розв’язку двоїстої, а другого – з прямої задачі) T 3 2 1 4  P  vx   , 0, , 0 .  , Q  vy   , 5 5 5 5  Остаточно перевіримо одержаний результат для матричної гри за формулою xT Ay  v . Дійсно, 1    3 6 8  5   4 3  27 2 P T AQ   , 0, v.   9 4 2      5  5 5 5   7 5 4  0      Розглянемо тепер процедуру видалення домінованих стратегій в контексті розв’язку задач лінійного програмування. Нехай деякий i-й рядок домінує k-й (тобто, елементи i-го рядка більші або дорівнюють елементів kго рядка). Якщо це помітили до складання задачі лінійного програмування, то домінований рядок можна викреслити, тоді пряма задача міститиме меншу кількість обмежень, а двоїста – меншу кількість змінних. Викресленому рядку відповідає “надлишкове” обмеження, яке є завжди справедливим за умови, що виконується обмеження, яке відповідає домінуючому рядку. Дійсно, нехай ai1  ak1 , ai 2  ak 2 ,..., ain  akn . Тоді, для будь-якого набору змінних x1 , x2 ,.., xn такого, що ai1 x1  ai 2 x2  ...  ain xn  1 справедливо також і обмеження aki1 x1  ak 2 x2  ...  akn xn  1. Дійсно, оскільки змінні xi≥0, то ak1 x1  ak 2 x2  ...  akn xn  ai1 x1  ai 2 x2  ...  ain xn  1. Зрозуміло, що видалення “надлишкового” обмеження з системи обмежень задачі лінійного програмування спрощує процедуру симплекс методу і не впливає на розв’язок. Точніше, якщо має місце строге домінування, то дійсно не впливає на розв’язок, якщо ж домінування нестроге, то може статися так, що це вплине на множину оптимальних стратегій другого гравця, але при цьому залишиться рівнозначний оптимальний розв’язок. В будь-якому разі видалення домінованого або строго домінованого рядка не впливає на значення цільової функції в оптимальному розв’язку, і отже, на ціну гри. У випадку строгого домінування обмеження, що відповідає домінованому рядку для будь-якого набору x1 , x2 ,.., xn (в тому числі і в точці оптимуму) буде 28 виконуватись як строга нерівність і отже за другою теоремою двоїстості відповідна компонента розв’язку двоїстої задачі дорівнюватиме нулю. Аналогічно, якщо якийсь стовпець (слабо) домінує інший стовпець, то домінуючий стовпець може бути видалений, оскільки він породжує надлишкове обмеження двоїстої задачі, а в оптимальному плані прямої задачі можна одразу відповідну змінну покласти рівною нулю (і отже, зменшити кількість змінних). Взагалі видалення домінованого рядка можна “виправдати” еврістичними міркуваннями першого гравця “нащо отримувати менше, якщо можна більше”, а видалення домінуючого стовпця з позиції другого гравця “виправдовується” міркуванням “нащо платити більше, якщо можна менше”. Іноді домінування може бути і “прихованим”, тобто, жоден з рядків не домінує інший, але якись рядок (слабо) домінується симплекс-комбінацією інших рядків. Аналогічним чином легко показати, що таке обмеження також може бути видалене, оскільки є надлишковим. Стовпець, який домінує симплекс-комбінацію інших стовпців, також може бути видалений. Відзначимо, що попереднє видалення домінованих рядків та домінуючих стовпців є “добровільним”, не обовязковим кроком перед записом та розв’язком задачі лінійного програмування, спрощує процес розв’язку, але не впливає на ціну гри. Іншими словами, якщо домінування мало місце, але не було помічене, то це не є помилка. Продемонструємо процес видаленя домінованих стратегій на прикладах. Приклад 5.2. Розв’язати матричну гру з матрицею А методом лінійного програмування. 2  0 1   A   4 1  2 2 4 3   В матриці є рядок з додатніми елементами, отже, ціна гри додатня. В принципі можна безпосередньо виписати пару двоїстих задач лінійного програмування (пряма та двоїста задачі матимуть по три основні змінні та три непрямих обмеження). Помітимо, що третій рядок домінує перший та викреслимо перший рядок. В матриці, що лишилася, викреслимо другий стовпець, оскільки він домінує третій (до викреслення першого рядка  4  2  . При домінування не було). В результаті залишається матриця A    2 3  цьому y1=0, x2=0, а матрична гра з матрицею A- вже не підлягає надальшому спрощенню. Еквівалентна пара двоїстих задач має вигляд x 2  x3  min 4 x 2  2 x3  1  2 x 2  3 x3  1 y 2 , y3  0 x1  x3  max 4 y1  2 y 3  1 2 y1  3 x3  1 x1 , x3  0 29 Розв’яжемо першу задачу, наприклад графічно. y1  5 2 , y 3  . Знаючи 16 16 розв’язок прямої задачі, знайдемо розв’язок двоїстої за другою теоремою двоїстості. Оскільки обидві компоненти розв’язку прямої задачі строго додатні, то обмеження двоїстої задачі виконуватимуться як рівності, тобто розв’язок двоїстої задачі знаходимо з системи рівнянь  4 x 2  2 x3  1 , звідси   2 x 2  3 x 3  1 1 6 2 1 6  5 , , x3  . Звідси, x   0, , y   , 0,  , ціна гри дорівнює 16 16  16  16 16   16 1 1 16 v   , а стратегії гравців мають вигляд: 5 2 1 6 7   16 16 16 16 x2  T 1 6 2  5 P  vx   0, ,  , Q  vy   , 0, . 7 7 7  7 Остаточно перевіряємо відповідь:  P T AQ   0,  1 , 7 5 2   0 1  7  16 6   v.  4  1  2  0   7  7 2  3   2 4 7 Приклад 6.2. Розв’язати матричну гру з матрицею А методом лінійного програмування. 0 2 4    A   2 1  2  6 4  4   В даному прикладі, на відміну від попереднього, жоден з рядків не домінує інший рядок та жоден зі стовпців не домінує інший стовпець. Будемо шукати “приховане домінування”, тобто коли рядок домінується симплекскомбінацією інших рядків або стовпець, який домінує симплекс-комбінацію інших стовпців. Спочатку будемо шукати домінування за рядками. Відзначимо, що домінованим не може бути рядок, який містить максимальний елемент будь-якого стовпця (за вийнятком можливого випадку, коли всі елементи відповідного стовпця рівні). Продивляючись 1-й та 2-й стовпці, виключаємо 3-й рядок, 3-й стовпець – виключаємо 1-й рядок. Отже, можливим кандидатом на домінування може бути лише 2-й рядок. Дійсно, помічаємо, що 2-й рядок слабо домінується напівсумою 1-го та 3-го рядків та виключаємо його. Подивимось на стовпці матриці, що лишилася: 0 2 4   . A '    6 4  4 Після викреслення 2-го рядка ситуація, коли жоден зі стовпців не домінгує інший, лишилася, тому будемо шукати “приховане” домінування. 30 Домінуючим не може бути стовпець, який містить мінімальний елемент будь-якого рядка, таким чином виключаємо 1-й та 3-й стовпці. Можливим кандидатом залишається 2-й стовпець. Дійсно, він слабо домінує напівсуму 1-го та 3-го стовпців і може бути викресленим. Залишається матриця A- 2×2, яка не має сідлової точки. 0 4   A    6  4 Для даної матриці знайдемо оптимальні стратегії гравців, користуючись формулами для матричної гри 2×2 (див. Відповідний розділ нижче): z=0-4-6-4=-14, p1=(-4-6)/z=5/7, p2=(0-4)/z=2/7, q1=(-4-4)/z=4/7, q2=(0-6)/z=3/7. Або можна записати еквівалентну пару двоїстих задач: x1  x3  max 6 x3  1 4 x1  4 x3  1 x1 , x3  0 y1  y 3  min 4 y3  1 6 y1  4 y 3  1 y1 , y 3  0 Остаточно маємо: 1 1 2  * 1 1 12 5 5 2 1 1 x   , 0, , y   , 0, , v          , 12  4 7  12 3  12 12  3 4 2 3 5 2 4 3 5 4 * * P *  vx*   , 0, , Q  vy   , 0, , v      1 . 7 7 7 7 7 7 7 7 * Наступна теорема фактично є критерієм перевірки того, що сідлова точка та ціна матричної гри знайдені вірно. Теорема 5.2. Для того, щоб трійка ( P* , Q* , v) була розв’язком матричної гри з матрицею А в мішаних стратегіях, необхідно і достатньо виконання умов ei AQ *  v  P * Ae Tj , i  1, m, j  1, n Доведення. Необхідність. За означенням розв’язку матричної гри, якщо (P*,Q*) – сідлова точка, v – ціна гри, то PAQ*≤v для будь-якої стратегії першого гравця P, зокрема, і для набору його чистих стратегій ei, i=1,m. Аналогічно, v≤ P*AQ для будь-якої стратегії другого гравця, зокрема, і для набору його чистих стратегій ejT, j=1,n. Достатність. Нехай умови теореми виконуються. Позначимо * P   p1 ,..., pm , Q *  (q1 ,..., qn ) . Тоді pi ei AQ *  pi v, i  1, m . Беручи суму m нерівностей одного знаку, маємо: P*AQ*≤v. Аналогічно, q j v  P * Ae Tj , j  1, n . Беручи аналогічним чином суму n нерівностей одного знаку, маємо: v≤P*AQ*, звідси P*AQ*=v. Нехай P '   p1' ,..., pm' , Q '  (q1' ,..., qn' ) - довільні стратегії першого та другого гравця. Тоді аналогічно попередньому випадку 31 доводяться нерівності P’AQ*≤v, v≤P*AQ’, і оскільки v=P*AQ*, то P’AQ*≤ P*AQ* ≤P*AQ’, що й за означеням означає, що (P*,Q*) – сідлова точка, v – ціна гри. Приклад 7.2. Перевіримо правильність відповіді в останньому прикладі. 0 2 4    2 * 4 3 12 5 A   2 1  2  , P *   , 0, , Q   , 0, , v  . 7 7 7 7 7  6 4  4   12 5 12 e1 AQ *   v, e2 AQ *   v, e3 AQ *  v 7 7 7 12 18 12 P * Ae1T   v, P * Ae 2T   v, P * Ae3T   v. 7 7 7 Графоаналітичний метод розв’язку матричних ігор 2×n та n×2. Для деяких класів матричних ігор практичний інтерес являє графоаналітичний метод. Цей метод складається з двох частин. Спочатку, в матричній грі графічно виявляються якісні особливості розв’язку, потім повна характеристика розв’язку знаходиться аналітично. В основі методу лежить твердження щодо сідлової точки, яке залишається справедливим і для мішаного розширення гри. Сідлова точка в матричній грі існує тоді і тільки тоді, коли виконується рівність max min f ( x, y )  min max f ( x, y )  v * xX yY xX yY При цьому сідлову точку складають стратегії, які доставляють зовнішні екстремуми в останній рівності. Приклад 8.2. матрицею Знайти сідлову точку матричної гри, яка задана  2 3 11  A   7 5 2  Тут перший гравець має дві чисті стратегії, а другий гравець три стратегії.Розв’яжему гру з позиції гравця, який має дві чисті стратегії, тобто першого гравця. Нехай його мішана стратегія має вигляд x=(α, 1-α), 0 ≤α≤1. Обчислимо  2 3 11   7  5 xA   , 1    7 5 2  5  2 2  9  . Позначимо f1 ( )  7  5 , f 2 ( )  5  2 , f 3 ( )  2  9 . Знайдемо 32 max min  f1 ( ), 0 1 i{1, 2,3} f 3 ( )  max min 7  5 , 5  2 , 2  9  . f 2 ( ), 0 1 i{1, 2,3} Спочатку для кожного   [0;1] знайдемо min 7  5 , 5  2 , 2  9  . i{1, 2, 3} На малюнку такі мінімуми для кожного   [0;1] утворюють ламану – нижню огинаючу ABCD. Потім на ламаній ABCD знайдемо найбільше значення, яке досягається в точці В. Це значення реалізується при деякому значенні   [0;1] , яке є розв’язком рівняння f2=f3, тобто 5-2α = 2+9α. Тут α=3/11. Друга координата точки В дорівнює 5 2 3 49  3 49  . Таким чином, B  . В мішаному 11 11  11 11  розширенні даної гри max min 7  5 , 5  2 , 2  9   49 . 0 1 i{1, 2 , 3} 11 Максимінна стратегія першого гравця дорівнює x  ( ,1   )  (3 / 11, 8 / 11). За аналогічною схемою знайдемо мінімаксну стратегію другого гравця. Його стратегію позначимо y  0,  , 1   , 0    1 . Перша компонента y дорівнює нулю, оскільки максимінна стратегія визначається другим та третім стовпцями матриці А. В цьому випадку в максимінній стратегії перша компонента дорівнює 0. Для знаходження   [0;1] в матриці А залишимо лише другий та третій стовпці. Обчислимо  3 11      11  8 A y Т    5 2 1    Позначимо f1 ( )  11  8 , f 2 (  )  2  3 . 2  3  . Знайдемо min max  f1 ( ), f 2 ( )  min max 11  8 , 2  3  . 0  1 i{1, 2} 0   i{1, 2 Для знаходження мінімакса наведемо малюнок. Спочатку для кожного   [0;1] знайдемо min 11  8 , 2  3  . На малюнку такі точки утворюють i{1, 2} ламану – верхню огинаючу KLM. Потім на огинаючій знаходимо мінімальне значення, яке досягається в точці L. 33 Ця точка відповідає   [0;1] , яке є розв’язком рівняння f1=f2, тобто 11-8β=2+3β. Отже, β=9/11. Друга координата точки L буде 11  8  9 49  . 11 11 9 49  Таким чином, L , . В мішаному розширенні даної гри  11 11  min max 11  8 , 2  3   0   i{1, 2} 49 . 11 Мінімаксна стратегія другого гравця дорівнює 2 9  y  0,  , 1      0, , . 11 11   При цьому мінімакс та максимін існують та виконана рівність v И  vн  49 . Це і є ціна гри. 11 В підсумковій перевірці слід продемонструвати виконання рівності (x ) A(y*)=v*. В даному разі перевірка показує, що дійсно * Т     0 8   2 3 11  9  49 3    .  ,     11 11   7 5 2   11  11 2    11  Відповідь: (x*,y*)=((3/11,8/11), (0, 9/11, 2/11)), v*=49/11. Приклад 9.2. Знайти сідлову точку матричної гри, яка задана матрицею 1 4    A   3  2 . 0 5    Тут перший гравець має три чисті стратегії, а другий – дві стратегії. Розв’яжему гру з позиції гравця, який має дві чисті стратегії, тобто другого гравця. Нехай його мішана стратегія має вигляд x=(β, 1-β), 0 ≤β≤1. 34 Обчислимо 1 4   4  3           5  2  . Ay   3  2   0 5 1     5  5      Позначимо f1 ( )  4  3 , f 2 ( )  5  2, f 3 ( )  5  5 . Т Знайдемо min max  f1 ( ), f 2 ( ), f 3 ( )  min max 4  3 5  2 5  5  . 0  1 i{1, 2,3} 0  1 i{1, 2,3} Для знаходження мінімакса наведемо малюнок. Спочатку для кожного   [0;1] знаходимо max 4  3 , 5  2, 5  5  . i{1, 2,3} На малюнку такі максимуми для кожного   [0;1] утворюють ламану – верхню огинаючу HJKL. Потім на огинаючій знаходимо мінімальне значення, яке досягається в точці К. Ця точка буде при значенні β, яке є розв’язком рівняння f1=f2, тобто 4-3β=5β-2, отже, β=3/4. Друга координата точки К дорівнює 4  3   . Таким чином, K  , 7 3 3 7  . Отже, 4 4 4 4 7 min max 4  3 , 5  2  , а мінімаксна стратегія другого гравця має вигляд 0  1 4 3 1 yВ   , . Аналогічним чином знайдемо максимінну стратегію першого 4 4 гравця. Його стратегію позначимо x=(α, 1-α, 0), 0 ≤α≤1. Третя компонента вектора x дорівнює нулю, оскільки мінімаксна стратегія першого гравця визначається першим та другим рядками матриці А. Обчислимо 1 4    xA   , 1   , 0  3  2   3  2 , 6  2 . 0 5    Позначимо f1 ( )  3  2 , f 2 ( )  6  2. 35 Знайдемо max min  f1 ( ), f 2 ( )  max min 3  2 , 6  2 . 0 1 i{1, 2} 0 1 i{1, 2} Для знаходження максиміна розглянемо малюнок Спочатку для кожного   [0;1] знайдемо min 3  2 , 6  2 . i{1, 2} На малюнку такі мінімуми утворюють ламану – нижню огинаючу MNP. Потім на огинаючій знаходимо найбільше значення, яке досягається в точці N. Ця точка є розв’язком рівняння f1=f2, тобто 3-2α=6α-2. Друга координата точки N дорівнює 3  2   . Отже, N  , 5 8 7 4 7  3  2 , 6  2  . гри max imin 0 1 {1, 2} 4 5 8 7  . В мішаному розширенні даної 4 Максимінна стратегія першого гравця має вигляд xн   ,1   , 0  (5 / 8, 3 / 8, 0). . 7 4 Мінімакс та максимін існують та виконана нерівність v В  v Н  . Отже, ціна гри дорівнює 7/4 і сідлова точка має вигляд ( x* , y * )  ((5 / 8, 3 / 8, 0), (3 / 4, 1/ 4)). В остаточній перевірці слід показати виконання рівності ( x* )Т Ay *  v* . В даному разі маємо:  1 4   3   5 3 7    , 0   3  2   4   .  , 1 8 8      4 0 5   4  5 3 3 1  7 Відповідь: x * , y *     , , 0  ,  ,  , v *  . 4   4 4   8 8 Приклад 10.2. Гра в орлянку. Ця гра представлена матрицею  1  1  A   1 1  36 Тут перший та другий гравці мають по дві чисті стратегії. Розв’яжемо гру з позиції першого гравця. Нехай його стратегія має вигляд x=(α, 1-α), 0 ≤α≤1. Обчислимо  1  1   2  1, 1  2  . xA   , 1    1 1  Позначимо f1 ( )  2  1, f 2 ( )  1  2 . Знайдемо max min  f1 ( ), 0 1 i{1, 2} f 2 ( )  max min 2  1, 1  2  . Для знаходження максиміна 0 1 i{1, 2} розглянемо малюнок Значення мінімумів min 2  1, 1  2  утворюють ламану – нижню i{1, 2} огинаючу MPQ. Потім на огинаючій знайдемо максимальне значення, яке досягається в точці Р – розв’язку рівняння f1=f2, тобто 2α-1=1-2α, звідси α=1/2. Друга координата точки P дорівнює 2   1  0. Отже, P , 0  . Отже, 1 2 в мішаному розширенні даної гри max min 2  1, 1  2   0. 1 2  0 1 i{1, 2} Максимінна стратегія першого гравця x Н  ( ,1   )   , 1 2 1 . 2 Оскільки платіжна матриця є симетричною, то міркування для другого гравця аналогічні, малюнок також аналогічний, тільки треба брати верхню огинаючу. Виходячі з аналогічних міркувань, знайдемо, що x В   , 1 2 v В  vН  1 та здійснимо остаточну перевірку. 2 1  , 2 1 1   1  1  2     0.  2    1 1   1    2 37 1 , 2  1  2 Відповідь: x * , y *     , 1 1 ,  , 2 2 1   , v  0. 2   Аналітичний метод розв’язку матричних ігор 2×2 a a  Розглянемо матричну гру 2×2 з матрицею A   11 12  .  a 21 a 22  При дослідженні даної матричної гри (як і будь-якої іншої матричної гри довільної розмірності) може скластись дві ситуації – або сідлова точка матриці існує, або ні. В першому випадку легко знаходимо розв’язок гри в чистих стратегіях, які відповідають сідловій точці. Відсутність сідлової точки у матриці 2×2 еквівалентна системі умов: (a11  a12 )(a 21  a 22 )  0 .  ( a  a )( a  a )  0 11 21 12 22  Якщо ж сідлової точки не існує, то для довільної матричної гри справедливе твердження, що для мішаного розширення гри в точці рівноваги кожен з гравців має принаймні дві активні стратегії (активною називається стратегія, яку гравець застосовує з додатньою ймовірністю). Теорема про активні стратегії в загальному вигляді буде розглянута в розділі “біматричні ігри”. Щодо матричної гри, дану теорему можна сформулювати таким чином: якщо один з гравців грає оптимальним чином, то ціна гри не залежить від того, як грає інший гравець в межах своїх активних страткгій. Якщо ж це твердження застосувати до матричної гри 2×2, то воно набуває наступного виду: або матрична гра 2×2 має сідлову точку, або в точці рівноваги обидві стратегії кожного з гравців є активними. В другому випадку можна застосувати теорему про активні стратегії. Нехай х – ймовірність вибору першим гравцем першого рядка, тоді ймовірність вибору другого рядка дорівнює 1-x. За теоремою про активні стратегії, якщо перший гравець грає оптимально, то ціна гри не залежить від того, яку з своїх (двох) чистих стратегій застосовує другий гравець, звідси v  a11 x  a 21 (1  x)  a12 x  a 22 (1  x) . Знаходячи х та 1-х, маємо оптимальну мішану стратегію першого гравця:  a 22  a 21 x *   ;  a11  a12  a 22  a 21  a11  a12  a11  a12  a 22  a 21  Аналогічно, припускаючи, що оптимальна стратегія другого гравця дорівнює y*=(y, 1-y) та застосовуючи теорему про активні стратегії, маємо: v  a11 y  a12 (1  y)  a 21 y  a22 (1  y) 38  a 22  a12 y *   ;  a11  a12  a 22  a 21 v  a11  a 21  a11  a12  a 22  a 21   , де Δ – визначник матриці А. a11  a12  a 22  a 21 Приклад.  1 2   A    4  2 Дана матриця задовольняє наведеній умові відсутності сідлової точки, отже для неї z=-1-2-2-4=-9 (спільний знаменник всіх формул), звідси 24 x*   ,  9 1 2   2 1  22 * ,  , , y    9   3 3  9 1 4   4 5   ; . 9  9 9 Обчислимо ціну гри чотирма способами (знайдена мішана стратегія першого гравця по черзі проти першої та другої чистої стратегії другого гравця та знайдена мішана стратегія другого гравця по черзі проти першої та другої чистої стратегії першого гравця). Співпадіння чотирьох значень ціни гри зі значенням v, обчисленим за наведеною формулою означає, що стратегії першого та другого гравця знайдено вірно:  2  , z 3 2 1 2 1 4 5 4 5 2 v   (1)   4   2  (2)   (1)   2   4   (2)  . 3 3 3 3 9 9 9 9 3   (1)(2)  2  4  6, z  1  2  2  4  9, v  Зауваження. Ще раз підкреслимо, що наведені формули для обчислення x*,y* працюють за умови, що матриця 2×2 не має сідлової точки. Якщо ж застосувати ці формули до матриці, що має сідлову точку, то формально вийде розв’язок задачі, що не має фізичного змісту – одна з стратегій буде менше нуля, а друга більше одиниці. Наприклад, матриця 1 2  має сідлову точку (2,1), отже v=3, x*=(0,1), y*=(1,0). A   3 5 Якщо фрмально застосувати формули, то x*=(2,-1), y*=(3;-2). Поверхня виграшу в матричній грі 2×2 Повернемось до розглянутого вище прикладу з платіжною матрицею  1 2   . Нехай стратегії гравців є x=(x,1-x) та y=(y,1-y) відповідно, тоді A    4  2 виграш першого гравця дорівнює f(x,y)=xAyT=-9xy+4x+6y-2. Як було встановлено вище, дана гра має розв’язок в мішаних стратегіях 39 2  2 1  4 5 x *   , , y *   , , v  Зробимо заміну x=x’+2/3, y=y’+4/9, отже після 3  3 3 9 9 2 2 4 2 наведення подібних маємо: f ( x, y )  9 x1 y1   9 x   y    . 3 3  9 3  Дана поверхня являє собою гіперболічний параболоїд (сідло). При цьому можна інтерпретувати теорему про активні стратегії. Нехай перший гравець грає оптимально (тобто вибирає x=2/3). Тоді добуток двох дужок перетворюється на нуль та f(x,y)=2/3=v незалежно від y (тобто незалежно від стратегії другого гравця). Аналогічна ситуація має місце, якщо оптимально грає другий гравець (тобто вибирає y=4/9), тоді виграш першого гравця не залежить від х та дорівнює ціні гри. Взагалі, для матрицчної гри 2×2, яка не має сідлової точки, виграш першого гравця можна представити у вигляді f ( x, y)  cx  x1* y  y1*   v , де c  a11  a22  a12  a 21 , x1* , y1* - перші компоненти оптимального розв’язку гри, v – ціна гри Симетричні матричні ігри Розглянемо один важливий та цікавий підклас матричних ігор, які носять назву симетричні. Означення. Квадратна матриця A=(aij) називається кососиметричною. Якщо aij=-aji для всіх значень i,j. Антагоністична матрична гра називається симетричною, якщо її платіжна матриця кососиметрична. Теорема 6.2. Значення симетричної гри дорівнює нулю. Крім того, якщо х – оптимальна стратегія першого гравця, то вона одночасно є оптимальною стратегією другого гравця. Доведення. Нехай А-матриця гри, х – довільна стратегія. Для кососиметричної матриці А=-АТ. Отже, xAxT=-xATxT=-(xATxT)T=-xAxT. xAy T  0 , і таким чином ціна гри Отже, xAxT=0. Звідси, для будь-якого х min y недодатня, з іншого боку, max yAx T  0 , отже, ціна гри невідємна. Отже, ціна y гри дорівнює нулю. Далі, якщо x – оптимальна стратегія гри, то xA≥0. Але звідси x(-AT)≥0 і отже xAT≤0 або AxT≤0. Отже, дана стратегія є оптимальною також і для другого гравця. Приклад. Розглянемо гру з матрицею 1  2 0   A   1 0 3 .  2 3 0    Оскільки матриця кососиметрична, то значення гри повинно дорівнювати нулю. Очевидно, дана матриця не має сідлової точки. Крім того, оптимальна стратегія не може використовувати лише дві чисті стратегії. Дійсно, нехай 40 наприклад x1>0, x2>0, x3=0. Така мішана стратегія пешого гравця принесе йому від’ємний виграш проти першої чистої стратегії другого гравця. Отже, x1>0, x2>0, x3>0. Ця стратегія повинна бути оптимальною і для другого гравця та її компоненти повинні задовольняти системі рівнянь   x  1   2 x1  x1  x2  3x2  x2  2 x3  3 x3  x3 0 0 0 1 Єдиний розв’язок системи рівнянь має вигляд  , 1 2 1 , 3 1  . Для обох 6 гравців це єдина оптимальна стратегія. Метод Брауна-Робінсона Даний метод являє собою ітеративну процедуру, що дозволяє знайти наближений розв’язок матричної гри. Суть методу та його математичне моделювання достатньо прості, але обгрунтування методу є досить складним та виходить за межі даного посібника. Основну концепцію, на якій базується метод, можна сформулювати так: “майбутнє схоже на минуле”. Пояснимо це на прикладі. Нехай дехто планує літню відпустку та хоче знати, яке буде літо в даному регіоні- холодне, середнє чи спекотне. Приблизно оцінити це можна наступним чином – підняти статистику за минулий час (наприклад за останні 50 років) та обчислити відносні частоти того, яке було літо. Ці відносні частоти можна приблизно прийняти за ймовірнісний прогноз на майбутнє літо. Виявляється, що даний принцип можна застосувати і до матричної гри наступним чином. Розглядається два фіктивні гравці, які грають у матричну гру, на першому кроці вони вибирають якісь рядок та стовпчик відповідно, а на кожному наступному кроці кожен з гравців вибирає рядок/стовпець, що є найкращою відповідю на мішану стратегію опонента, яка відповідає відносним частотам його ходів на попередніх кроках. Після моделювання n кроків покладають, що оптимальні стратегії гравців наближено рівні відносним частотам вибору рядків/стовпців протягом ціх n кроків. Доведено, що коли кількість кроків прямує до нескінче-ності, ”емпірична” ціна гри збігається до шуканого значення вихідної матричної гри в будь-якому разі. Якщо матрична гра має єдиний розв’язок, то і частоти вибору рядків/стовпців збігаються до цього розв’язку. Якщо ж розв’язок матричної гри не єдиний (тоді множина розв’язків є замкненою та опуклою), то послідовність обчислених частот може навіть “блукати” вздовж множини розв’язків, наближуючись до неї. Існує два способи реалізації процедури Брауна-Робінсона. В одному з них на кожному кроці фіктивні гравці здійснюють свій вибір “одночасно”, в другій – послідовно. Якщо нічого неівідомо про розв’язок матричної гри, то 41 перші ходи гравців рекомендується вибирати як найкращу відповідь на 1 1 мішану стратегію опонентів  , ...,  . Продемонструємо два згадані n n способи на прикладі.  1 3  Приклад. Розв’язати матричну гру з платіжною матрицею A   2 1   методом Брауна-Робінсона. Дана матриця не має сідлової точки. Зробимо пять кроків двома згаданими способами. Перший спосіб. Одночасний вибір гравців. Спочатку припускаємо, що мішані стратегії обох гравців є  , 1 2 1  та 2 знайдемо найкращу відповідь кожного з гравців на таку стратегію опонента. 1 3 arg max  ,  2 2 1 1  2 3 1 ,   1 , arg min    1. 2  2   2 Нехай Pi,Qi- вектори абсолютних частот вибору стратегій першого/другого гравців на i-й ітерації, отже P1=(1,0), Q1=(1,0). На другому кроці алгоритму знайдемо найкращу відповідь першого гравця на першу чисту стратегію другого та найкращу відповідь другого гравця на першу чисту стратегію першого. BR1 (Q1 )  arg max (1, 2)  2, BR2 ( P1 )  arg min (1, 3)  1 Знайдені найкращі відповіді додамо до відповідних компонент P1 та Q1: P2=(1,1), Q2=(2,0). На третьому кроці маємо: 1  2 3 1 BR1 (Q2 )  arg max 1, 2  2, BR 2 ( P1 )  arg min  ,   1, 2   2 отже P3=(1,2), Q3=(3,0). На четвертому кроці маємо:  11  2  2 1  3  2 1  BR1 (Q3 )  arg max 1, 2  2, BR 2 ( P3 )  arg min  ,   1 або 2 . 3 3   Якщо раптом шуканий мінімум/максимум досягається одразу для декількох компонент, можна збільшувати будь-яку з них. Збільшимо, наприклад, першу, отже P4=(1,3), Q4=(4,0). На п’ятому та шостому кроці маємо:  11  3  2 1 3  3 1  BR1 (Q4 )  arg max 1, 2  2, BR 2 ( P1 )  arg min  ,   2 ,P5=(1,4), 4 4   Q5=(4,1).  4 1  3 BR1 (Q5 )  arg max  ,  5 4  2  1  1 1  4  2 1  3  4 1  ,   2, BR 2 ( P1 )  arg min    2. 5  5 5   отже P5=(5,1), Q5=(4,2). 42 Звичайно, шість кроків для розв’язку задачі є замало, але зупинимось на цьому. Наближені значення оптимальних стратегій гравців рівні 5 1 4 P , , Q   , 6 6 6 2  2 1  5 1   1 3  2 / 3 5      .  , , v   ,    6   3 3  6 6   2 1  1/ 3  3 Доречі, в даному прикладі сталося так, що навіть за таку малу кількість ітерацій стратегія другого гравця та ціна гри визначені точно. Другий спосіб. Послідовний вибір гравців. 1 1 Припускаємо, що другий гравець зіграв мішану стратегію  ,  , а 2 1 3 ,  2 перший вибрав найкращу відповідь на неї arg max  2 2 1   1 , тобто 2  першу чисту стратегію, тобто P1=(1,0), BR2(P1)=arg min(1, 3)=1, отже Q1=(1,0). На другому кроці маємо: 1  2 3 1 , BR1 (Q1 )  arg max 1, 2  2 , отже P2=(1, 1), BR 2 ( P2 )  arg min    1 , отже 2   2 Q2=(2,0). На третьому кроці маємо: BR1 (Q2 )  arg max 1, 2  2 , P3=(1, 2),  1 1  2  2 1  3  2 1  BR 2 ( P2 )  arg min  ,   1 або 2 (візьмемо наприклад 1), тоді 3 3   Q3=(3,0). На четвертому кроці маємо:  1 1  3  2 1  3  3 1  , BR1 (Q3 )  arg max 1, 2  2 , P4=(1, 3), BR 2 ( P2 )  arg min  2 4 4   тоді Q4=(3,1). На п’ятому та шостому кроці маємо:  3 1  1  3 BR1 (Q4 )  arg max  , 4   1 1  4  2 BR 2 ( P4 )  arg min  , 5   3 1  2  3 BR1 (Q5 )  arg max  , 5   2 1  4  2 BR 2 ( P4 )  arg min  , 6  1 P , 3 3  2  11    2 , P5=(1, 4), 4  1  3  4 1    2 тоді Q5=(3,2). 5  3  2  2 1    1 , P4=(2, 4), 5  2  3  4 1    1 та 2 (візьмемо 1) тоді Q6=(4,2). 6  2  2 1 1 , Q   , , v   , 3  3 3 3 2   1 3  2 / 3 5    3   2 1   1 / 3  3 Сталося так, що знайдений наближений розв’язок насправді є точним. 43 Неперервні антагоністичні ігри та їхнє мішане розширення Розглянемо антагоністичні ігри, в яких множини стратегій гравців є незліченими. При цьому обмежимось випадком гри на прямокутнику X×Y=[a,b]×[c,d]. Під чистими стратегіями гравців слід розуміти вибір точки з заданих інтервалів. Функцію виграшу першого гравця F(x,y), задану на даному прямокутнику, прийнято називати ядром гри. Якщо множини X та Y є сукупністю відрізків X=[a1,b1]U[a2,b2]U…U[am,bm], Y=[c1,d1]U[c2,d2]U…U[cm,dm], то таку гру можна звести до гри на прямокутнику шляхом “склеювання” частин-прямокутників та відповідного перевизначення ядра гри. Для неперервної гри введемо поняття мішаного розширення. Тут під стратегіями гравців слід розуміти функції розподілу вибору чистих стратегій, задані на відрізках Х та Y відповідно. При заданих стратегіях – φ та ψ – функціях розподілу на відрізках X та Y математичне сподівання виграшу першого гравця дорівнює b d F ( , )    F ( x, y )d ( x)d ( y ) . a c Тут подвійний інтеграл від неперервної функції існує. Більш того, за теоремою Фубіні він дорівнює повторному b d a c F ( , )   F ( x, )d ( x)   F ( , y )d ( y ), де b d a c F ( x, )   F ( x, y )d ( y ), F ( , y )   F ( x, y )d ( x) . _ Таким чином, побудовано мішане розширення гри Г  {}, { }, F ( , ) неперервної гри на прямокутнику. Основна теорема неперервних ігор по суті є аналогом основної теореми матричних ігор. Вона стверджує, що будь-яка неперервна гра Г (тобто, гра з неперервним ядром) на прямокутнику має розв’язок в мішаних стратегіях. Доведення цієї теореми займає декілька сторінок, зацікавлений читач може знайти його в [3]. Приклад. Нехай X=Y=[-1;1], F(x,y)=xy. Доведемо, що ціна даної гри дорівнює нулю. Дійсно, нехай розв’язок φ(x), ψ(y) знайдено та ціна гри є від’ємною. Тоді перший гравець може зробити ціну гри додатньою, міняючи кожну реалізацію x на –x (це означає, що функція розподілу φ(x) змінюється на φ’(x)=1- φ(1-x). Аналогічно, другий гравець може зробити додатню ціну гри відємною шляхом заміни y на –у (точніше, ψ (y) на ψ ’(y)=1-ψ (1-y)). Отже, для того, щоб дана гра мала розв’язок (що гарантує основна теорема), необхідно, щоб ціна гри дорівнювала нулю. Відзначимо, що точка (0;0) є 44 розв’язком в чистих стратегіях з нульовою ціною гри. Відзначимо, що нульову ціну гри кожному з гравців нульовий виграш гарантується будьякою мішаною стратегією, якій відповідає симетричний на [-Δ; Δ] розподіл, де Δ≤1. Приклад. Нехай X =Y – це множина точок одиничного кола з центром на початку координат, і виграш першого гравця дорівнює скалярному       добутку векторів x та y , F ( x , y )  ( x , y ) . В даній грі                      y  BR1 ( y )  y, F1  BR1 ( y ), y   1,   x  BR 2 ( x )   x , F1  x , BR 2 ( x )   1           _ отже v  1, v  1 - гра не має розв’язку в чистих стратегіях. Однак, кожен з  гравців може гарантувати собі нульовий виграш, дотримуючись будь-якої з “симетричних” мішаних стратегій виду   2k  2k   1  x k   cos  0  , sin  0   , k  0, n  1, n  2 з ймовірністю , n  n  n      1 простіше за все вибирати a та  a з ймовірністю . Отже, ціна гри дорівнює 2  нулю. Гравці можуть також дотримуватись будь-яких стратегій, що є неперервними сумішами наведених, наприклад,  x  cos( ), sin( )  , де φ має рівномірний розподіл на [0; 2π]. Зауваження. Гра на прямокутнику [a,b]×[c,d] може бути зведена до гри на одиничному квадраті [0,1]×[0,1] шляхом лінійної заміни змінних x  xa yc , y  . Наприклад, в [4] неперервні ігри розглядаються саме на ba d c цій області. Вгнуто-опуклі ігри Означення. Кажуть, що гра на квадраті вгнуто-опукла, якщо її ядро A(x,y) є вгнутим по x при кожному значенні y та опуклим по y при кожному значенні x. Теорема. Нехай вгнуто-опукла гра A(x,y) є неперервною. Тоді вона має оптимальні чисті стратегії. Доведення. Оскільки гра неперервна, то вона має оптимальні стратегії. Нехай ними будуть F та G першого та другого гравців відповідно. Покладемо 1 1 0 0 x0   x dF ( x), y 0   y dG( y ) . 45 Оскільки функція А вгнута по x, то для будь-якого заданого y існує таке α, що функція By(x)=A(x,y)-αx досягає свого максимального значення (при фіксованому у) в точці x0. Маємо: E ( F , y )   B y ( x)  x dF ( x)   B y ( x)dF ( x)    xdF ( x) 1 1 1 0 0 0 Функція By(x) досягає максимуму в x0, отже, перший інтеграл в правій частині останньої рівності не перевищує B(x0), тому E(F,y)≤By(x0)+αx0=A(x0,y), Звідки випливає, що x0 не гірше F проти будь-якого y. Аналогічно можна показати, що y0 не гірше F проти будь-якого x. Таким, чином, x0,y0 – оптимальні чисті стратегії. Приклад. Розглянемо гру, задану на одиничному квадраті з ядром A(x,y)=-2x2+y2+3xy-x-2y. Легко бачити, що Axx=-4<0, Ayy=2>0, тому ця гра дійсно є вгнуто-опуклою. Ax=-4x+3y-1. Покладаючи цей вираз рівним нулю, маємо x  3y 1 . Це значення x максимізує А, однак воно не завжди 4 1 3 знаходиться в одиничному інтервалі і набуває відємних значень при y  . В цьому випадку максимум досягається при x=0. Звідси 1   0, y  3 . BR ( y )   3y 1 1  ,y 3  4 Аналогічно знаходимо Ay=2y+3x-2, звідси 2  2  3x  2 ,x 3 . BR ( x)   2  0, x  3  Оптимальні стратегії гравців та ціна гри дорівнюють x0  4 11 13 , y0  , v  . 17 17 17 Ігри з вибором моменту часу Як було згадано вище, неперервні ігри завжди мають оптимальні стратегії, але не існує загальних аналітичних методів їхнього обчислення. Якщо ядро є регулярним (тобто мало змінюється при малих змінах аргументів), то таке ядро можна апроксимувати сіткою і розглянути еквівалентну матричну гру. Однак і це є проблематичним, оскільки метод фіктивного розігрування Брауна-Робінсона або симплекс метод не дозволяють швидко та ефективно розв’язувати матричні ігри розмірності скажемо 100×100. З іншого боку, в той час, як не можна бути впевненим в загальному випадку, що всі ігри з розривними ядрами мають оптимальні стратегії, в деяких частинних випадках саме розривність дозволяє знаходити оптимальні стратегії (якщо вони існують) аналітичними методами. 46 Розглянемо один тип ігор на квадраті, який носить назву ігри з вибором моменту часу. Це означає, що кожен з гравців може зробити лише одну дію протягом певного інтервалу часу. При цьому порядок дій гравців є суттєвим, це й обумовлює розрив ядра вздовж діагоналі x=y. Розглянемо гру з ядром A(x,y) виду K ( x, y ), x  y  A( x, y )    ( x), x  y  L( x, y ), x  y  Де функція K(x,y) визначена та неперервна на множині 0≤x≤y≤1, L(x,y) - на множині 0≤y≤x≤1, а функція φ – на відрізку [0;1]. Не можна бути впевненим, що оптимальні стратегії в цій грі існують. Не зважаючи на це, можна дослідити деякі властивості оптимальних стратегій за припущенням, що ці стратегії існують. Нехай F – мішана стратегія першого гравця. Для y  [0,1] маємо y 1 0 y E ( F , y )   K ( x, y )dF ( x)   ( y )[ F ( y )  F ( y  0)]   L( x, y )dF ( x) . Якщо F – неперервна функція, то середній член дорівнює нулю та вираз набуває вигляду y 1 0 y E ( F , y )   K ( x, y )dF ( x)   L( x, y )dF ( x) . (*) Припустимо, що F та G – оптимальні стратегії гравців та є неперервними функціями розподілу. Відомо, що якщо F та G – оптимальні, а y0 – точка, в якій G’(y0)>0, то E(F,y0)=v, де v – значення гри. (Тут цей факт не доводиться, зауважимо лише, що це є аналогом теореми про активні стратегії для матричної гри). Тепер, якщо G’ додатня в точці y0, то вона додатня і в околі точки x0 і таким чином для цього окола E(F,y)=v , отже E ( F , y ) 0. y Тоді рівняння (*) можна переписати у вигляді y 1 L( y, y)  K ( y, y)F ( y)   K y ( x, y) F ( x)dx   L y ( x, y) F ' ( x)dx ' ' 0 y Це інтегральне рівняння відносно F’, яке іноді можна розв’язати. Припустимо тепер, що дано гру з ядром виду (*) . Припустимо, що оптимальні стратегії F та G є неперервними розподілами, а їхні похідні додатні на інтервалах [a,b] та [c,d] відпоівідно та дорівнюють нулю поза цими інтервалами. Тоді співвідношення, які зв’язують функції F,G та числа a, b, c, d, v мають вигляд E( F , y)  v для y  (c, d ), E( F , y)  v для всіх y, E( x, G)  v для x  (a, b), E( x, G)  v для всіх x, y 1 L( y, y)  K ( y, y)F ( y)   K y ( x, y) F ( x)dx   L y ( x, y) F ' ( x)dx для y  (c, d ) ' ' 0 y 47 x 1 0 y K ( x, x)  L( x, x)G ' ( x)   Lx ( x, y)G ' ( y)dy   K x ( x, y)G ' ( y)dy для x  (a, b) 0  a  b  1, 0  b  c  1. Якщо система має розв’язок, то цей розв’язок дає оптимальні стратегії та значення гри. Якщо розв’язку немає, то його або немає взагалі, або є, але стратегії гравців мають вигляд поза розглянутим типом. Якщо ядро є кососиметричним, тобто L(x,y)=-K(y,x), φ(x)=0. Для цього частинного випадку якщо розв’язок існує, то a=c, b=d, v=0 та вказані співвідношенння набувають вигляду E( F , y)  0 для y  (a, b), E( F , y)  0 для всіх y, y 1 L( y, y)  K ( y, y)F ( y)   K y ( x, y) F ( x)dx   L y ( x, y) F ' ( x)dx для y  (a, b) ' ' 0 y Приклад. Дуель. Нехай два гравці (дуелянти) в момент часу t=0 йдуть назустріч один одному та зустрічаються в момент t=1. Кожен з гравців має пістолет з однією кулею і може вистрілити в будь-який момент. Якщо гравець вбив суперника, а сам залишився живим, він виграє, якщо обидві гравці промахнулися або обидва вистілили в один момент та вбили один одного, дуель закінчується у нічию. Зробимо деякі припущення. Перше – дуель триває від моменту часу 0 до моменту 1 та ймовірність влучення в момент часу t дорівнює t. Друге – дуель є безшумною, тобто гравець не знає, що його суперник вистрілив, звичайно, якщо той промахнувся. Знайдемо ядро цієї гри. Якщо перший гравець вибирає момент x, а другий – y>x, то перший гравець з ймовірністю x влучить у суперника (тоді його виграш дорівнює +1). Якщо перший гравець промахнувся (з ймовірністю 1-x), то він буде вбитий з ймовірністю y (та отримає виграш -1). Таким чином, K(x,y)=x-y+xy. Очевидно, дана гра симетрична, тому L(x,y)=x-y-xy та φ(x)=0. Звідси Ky(x,y)=-1+x, Ly(x,y)=-1-x та L(y,y)-K(y,y)=-2y2 . Припустимо тепер, що оптимальна стратегія є неперервною функцією розподілу F з додатньою похідною в інтервалі (a,b). Тоді y b  2 y F ( y )   (1  x) F ( x)dx   (1  x) F ' ( x)dx 2 ' ' a y Це інтегральне рівняння може бути зведене до диференціального шляхом диференціювання обох частин, що дає  4 yF '  2 y 2 F ''  ( y  1) F '  ( y  1) F ' або після спрощень yF ''  3F ' . Останнє рівняння має розв’язок F ' ( y)  ky 3 . Знайдемо a,b,k. Припустимо, що b<1. Відомо, що для всіх y  (a, b) E( F , y)  0. Але функція E(F,y) є неперервною по y, звідси випливає, що E(F,b)=0. Звідси b b a a  x  b  bxdF ( x)  0. Але, якщо b<1, то  x  1  x dF ( x)  0 і тому E(F,1)<0, що суперечить умові E(F,y)≥0 для всіх у. Отже, b=1. 48 1 Оскільки b=1, то E(F,1)=0, тому k  a 2x  1 dx  0, звідси випливає 3a2-4a+1=0. 3 x Це рівняння має два корені, a=1 та a=1/3. Зрозуміло, що значення a=1 неможливо, тому a=1/3. Оскільки F-стратегія (функція розподілу), то k=1/4. Таким чином, оптимальна стратегія кожного з гравців задається функцією 1  0 , x   3 . щільності F ' ( x)   1 1  3,x 3  4x Приклад. Розглянемо знову дуель, описану в попередньому прикладі за єдиним вийнятком – дуель є шумною, тобто гравець знає, якщщо його супротивник вистрілив та промахнувся. В цьому випадку він. Звичайно, не буде стріляти до моменту часу 1, коли влучить з ймовірністю 1. Тому, якщо перший гравець вибрав x, а другий – y>x, то перший гравець виграє з ймовірністю х та програє з ймовірністю 1-х. Отже, K(x,y)=2x-1, L(x,y)=1-2y, φ(x)=0. До даного прикладу можна було б застосувати міркування, аналогічні попереднього прикладу. Однак, легко бачити, що має сідлову точку в чистих стратегіях. Насправді, 1 1  A , y   L( x, y )  1  2 y  0, якщо y  2 2  1 1 A ,   0 2 2 1 1  1  A , y   K  , y   0, якщо y  2 2  2  тому y  1 - оптимальна чиста стратегія. 2 Приклад. Нехай гравці вибирають по одній точці x та y відповідно. Нехай z – точка, координата якої є реалізацією випадкової величини з заданою функцією розподілу B(x), B(0)=0, B(1)=1, B(x)- неперервна на (0,1). Координата точки z стає відомою після того, як гравці зробили свої вибори x та y. Виграє той з гравців, чия точка є ближчою до z. Очевидно, дана гра є симетричною. Ймовірність виграшу першого гравця складає  x y  B 2 , x  y    1  p ( x, y )   ,x y 2  1  B x  y , x  y   2  x y x y Тоді K ( x, y )  2 B   1, L( x, y )  1  2 B ,  ( x)  0.  2   2  Нехай t- медіана розподілу B(x), тобто B(t)=1/2. Тоді t – розв’язок гри в чистих стратегіях. 49 Приклад. Нехай дехто продає три непотрібні предмети, кожен з яких він згоден віддати за будь-яку ціну. Нехай є два покупці (які в даному разі є гравцями). Покупці мають однакові суми грошей (не втрачаючи загальності міркувань, вважаємо, що одиничні). Продаж предметів відбувається за принципом “закритого” аукціону. Кожен з покупців в тайні від іншого розподіляє свою одиничну суму на три частини, які є пропозиціями ціни за відповідні предмети. Кожен з предметів дістається тому з гравців, хто запропонує більшу суму. Виграє той з гравців, хто купить два предмети з трьох. Якщо за будь-який з предметів були однакові пропозиції, то наслідком гри є нічия. Множина X стратегій першого гравця буде множиною всіх впорядкованих трійок x=(x1,x2,x3), таких, що x1+x2+x3=1, xi≥0, i=1,2,3. Множина стратегій другого гравця будується аналогічно. Функція виграшу дорівнює F ( x, y)  sgn( x1  y1 )  sgn( x2  y2 )  sgn( x3  y3 ) Очевидно, гра є симетричною (гравці знаходяться в рівних умовах), отже, ціна гри дорівнює нулю. Дана гра не має розв’язку в чистих стратегіях. Дійсно, будь-яка стратегія має принаймні дві компоненти, що менше 1 та програє стратегії опонента, в якій ці компоненти збільшені на ε, а третя – відповідно зменшена на 2ε. Нехай гравець вибрав точку P. На малюнку показано, що гравець перемагає, якщо його опонент вибрав точку з областей D, E або F та програє, якщо опонент вибрав точку з областей A, B або С (при виборі точок на межі областей гра закінчується у нічию. 50 Біматричні ігри Розглянемо скінчену безколіаційну гру двох осіб. Така гра називається біматричною та позначається Г(A,B) = <{X,Y},{A,B}>. Зазвичай, в такій грі задають дві матриці однакової розмірності виграшів першого та другого гравців. Рядки цих матриць відповідають стратегіям першого гравця, а стовпчики – стратегіям другого гравця. При цьому в першій матриці задаються виграші першого гравця, а в другій – другого. Іноді застосовується інша форма запису, а саме матриця, де на місці кожного елемента стоять два числа, записані через кому. Тут перше та друге число означають виграш першого та другого гравця відповідно. Відзначимо, що матрична (антагоністична) гра є частинним випадком біматричної, у цьому випадку B=-A. Для біматричних ігор стандартним чином, аналогічно випадку матричної гри, визначається мішане розширення. Розв’язками біматричної гри є точки рівноваги за Нешем, які, згідно означення точок рівноваги, визначаються наступним чином. Ситуація (x*,y*) € X×Y в біматричній грі називається точкою рівноваги за Нешем, якщо виконуються нерівності x*T Ay *  xT Ay * , x  X x*T Ay *  x*T Ay, y  Y . Дана система нерівностей означає, що що стратегія першого гравця x  X є його найкращою відповідю на дії другого гравця. Аналогічно, стратегія другого гравця y *  Y є його найкращою відповідю на дії першого. Фактично, рівноважна ситуація ( x* , y * )  X  Y при найкращих відповідях обох гравців переходить сама в себе. Використуємо цю властивість для знаходження точки рівноваги. Для y  Y знайдемо ті x  X , яке надає найбільше значення функції f1(x,y). Це позначається * x  arg max xX f1 ( x, y) Аналогічно, для x  X знайдемо ті y  Y , яке надає найбільше значення функції f2(x,y). Це позначається y  arg max yY f 2 ( x, y) Таким чином, задаються відображення x=xmax(y) та y=ymax(x), взагалі кажучи, багатозначні. Розглянемо ті пари стратегій ( x, y)  X  Y , які є розв’язками системи рівнянь  x  x max ( y )  max  y  y ( x) Такі ситуації, і лише такі є точками рівноваги за Нешем, тобто, точка ( x , y )  X  Y є нерухомою точкою багатозначного відображення в себе. * * 51 Розглянемо згаданий вище приклад “сімейний спор”. Нагадаємо, що ця біматрична гра задається таблицею Ф Б Ф 2,1 0,0 Б 0,0 1,2 В цій грі є дві ситуації рівноваги у чистих стратегіях. (x ,y ) = ((1,0),(1,0)), (xo,yo)=((0,1),(0,1)) € X×Y. Визначимо найкращу реакцію першого гравця на дії другого гравця та найкращу реакцію другого на дії першого. Нехай x  ( ,1   ),  [0,1] , y  ( ,1   ),   [0,1] . Кожна стратегія першого (другого) гравця однозначно відповідає значенню параметра  [0,1] (  [0,1]) і система рівнянь для визначення точок рівноваги набуває вигляду * *    arg max [ 0;1]{( Ay )1 , ( Ay ) 2 }  arg max [ 0;1]{2 ,1   } .  T T   arg max {( x B ) , ( x B ) }  arg max {  , 2  2  }   [ 0 ; 1 ] 1 2   [ 0 ; 1 ]  Розв’язки рівнянь та їхні графіки мають вигляд 0,   [0, 1 / 3)     [0,1],   1 / 3  1,   (1 / 3, 1]  0,   [0, 2 / 3)     [0,1],   2 / 3  1,  (2 / 3,1]  Для знаходження точок рівноваги побудуємо два наведені графіки в одній системі координат. 52 У заданих багатозначних відображень буде три спільні точки, а саме O(0,0), B(1,1) та С(2/3,1/3). Точки О та В відповідають вже знайденим ситуаціям рівноваги у чистих стратегіях, точка С(2/3,1/3) вказує на наявність рівноваги у мішаних стратегіях. Таким чином, у грі “сімейний спор” є три точки рівноваги: (x*,y*) = ((1,0),(1,0)), f(x*,y*)=(2,1), (xo,yo) = ((0,1),(0,1)), f(xo,yo)=(1,2) (x×,y×) = ((2/3,1/3),(1/3,2/3)), f(x×,y×)=(2/3,2/3). Остання точка рівноваги в мішаних стратегіях пропонує супругам вибирати похід на футбол або балет випадково та незалежно. Якщо вибирати улюблену розвагу з ймовірністю 2/3, то обидва супруги в середньому отримають однакову користь, що дорівнює 1. Таким чином в симетричній грі досягнуто справедливості, але при цьому кожен отримає менше користі, ніж у будь-якому випадку рівноваги у чистих стратегіях, тобто, справедливість досягнуто ціною втрати ефективності. Розглянемо інший спосіб розв’язку даного прикладу. Нехай гравці вибирають свої мішані стратегії. x  ( ,1   ),  [0,1] , y  ( ,1   ),   [0,1] . Тоді функції виграшу мають вигляд f1 ( ,  )  2  (1   )(1   ) , f 2 ( ,  )    2(1   )(1   ) та точки рівноваги шукаються в квадраті ( ,  )  [0,1]  [0;1]. Оскільки функції f1 та f2 неперервні та диференційовані по своїх параметрах, то необхідною умовою наявності рівноваги всередитні квадрата (тобто рівноваги у мішаних стратегіях) є умова f1 ( ,  )  0,  f 2 ( ,  )  0,  звідки маємо: α=2/3, β=1/3. Перевіримо достатні умови рівноваги f1(α,1/3)=2/3 (тобто α=2/3 є найкращою відповідю при β=1/3, точніше однією з безлічі найкращих відповідей), аналогічно, f2(2/3, β)=2/3 (тобто β=1/3 також є найкращою відповідю при α=2/3). Будемо шукати точки рівноваги на границі квадрату. 53 Нехай α=0, тоді f2(0, β)=2(1-β) набуває максимуму при β=0, а при β=0 функція f1(α,0)=1- α досягає максимуму при α=0. Маємо точку рівноваги (0;0). Нехай α=1, тоді f2(1, β)=β набуває максимуму при β=1, а при β=1 функція f1(α,1)=2α досягає максимуму при α=1. Маємо точку рівноваги (1;1). Взагалі для гри “Сімейний спор” дуже важливим моментом є те, чи допускається можливість попередніх переговорів. Якщо так – то в результаті переговорів може бути досягнута одна точок рівноваги (0;0) або (1;1) (або не досягнута - все залежить від здібності гравців-супругів йди на компроміси). Якщо ж попередні переговори відсутні (супругів розвели по різних кімнатах і не дали домовитись) , то незрозуміло, якої саме стратегї дотримуватись кожному з них. Якщо навіть чоловік згоден піти на компроміс заради жінки і вибирає балет, то може статись так, що жінка поведе себе так само по відношенню до чоловіка і вибере футбол, в результаті наслідком гри буде (0,0). В художній літературі подібна ситуація (бажання йти на компроміс при відсутності попередньої домовленості) описана в оповіданні О.Генрі “Дары волхвов”. В іноземній літературі дана задача “сімейний спор” носить назву “battle of sexes” (в буквальному перекладі війна статей) та має аббревіатуру BoS. В деяких нових джерелах ця вже класична абревіатура заради політкоректності розшифровується як “Bach or Stravinski”, і мова в ній йде про двох друзів, які люблять класичну музику, але один з них більше любить Баха, а інший – Стравінського. Наступний приклад демонструє випадок біматричної гри 2×2, в якій існує єдина точка рівноваги у мішаних стратегіях. Приклад 1.3. Розв’язати біматричну гру, яка задана двома матрицями виграшів першого та другого гравців.  2 2   4  3 , B    . A    3  1  2 1  В даній грі є чотири ситуації в чистих стратегіях, жодна з яких не задовольняє умові рівноваги за Нешем. Розлянемо мішане розширення гри Г(А,В). Позначимо множини стратегій гравців X  {( ,1   )  R 2   [0;1]} Y  {(  ,1   )  R 2   [0;1]} . Знайдемо ситуацію рівноваги як нерухому точку відповідного багатозначного відображення множини ситуацій у себе. Визначимо найкращу реакцію першого гравця на дії другого гравця та найкращу реакцію другого на дії першого. Нехай x  ( ,1   ),  [0,1] , y  ( ,1   ),   [0,1] . Кожна стратегія першого (другого) гравця однозначно 54 відповідає значенню параметра  [0,1] (  [0,1]) і система рівнянь для визначення точок рівноваги набуває вигляду   arg max [ 0;1]{( Ay )1 , ( Ay ) 2 }  arg max [ 0;1]{2  4 ,  1  4 } .  T T  arg max  [ 0;1]{( x B)1 , ( x B) 2 }  arg max  [ 0;1]{6  2, 1  4 } Розв’язки рівнянь мають вигляд 1,   [0, 3 / 8)     [0,1],   3 / 8  0,   (3 / 8, 1]  0,   [0, 3 / 10)     [0,1],   3 / 10  1,  (3 / 10,1]  Для знаходження точок рівноваги побудуємо два графіки розв’язків рівнянь в одній системі координат. Тут функція найкращої відповіді першого гравця α(β) представлена ломаною EFBKL, а функція найкращої відповіді другого гравця β(α) представлена ломаною ОАВСD. У графіків є єдина спільна точка, яка відповідає ситуації рівноваги. Вона визначає розв’язок гри у мішаних стратегіях ( x* , y * )  X  Y  [0;1]2  [0;1]2 , де стратегії x*=(3/10,7/10), y*=(3/8,5/8). Обчислимо виграші гравців в ситуації рівноваги 3  3 7   2 2  8   f1 ( x , y )  x Ay    0.5   10 10  3  1 5  8 3   4  3   3 7    8   0.2   f 2 ( x * , y * )  x *T By *      10 10   2 1  5  8 * * *T * Відповідь. x*=(3/10,7/10), y*=(3/8,5/8), f(x*,y*)=(0.5,-0.2). 55 Аналогічно випадку матричної гри, для біматричної гри також справедлива теорема існування, яка стверджує, що для будь-якого розширення біматричної гри існує принаймні одна точка рівноваги за Нешем, принаймні у мішаних стратегіях. Техніка доведення цієї теореми аналогічна доведенню аналогічного твердження для матричної гри. Відміною біматричної гри від матричної є те, що в матричній грі ціна гри визначається однозначно, а множина точок рівноваги є опуклою та замкненою. В біматричній грі множина точок рівноваги може бути незв’язною (наприклад, множина окремих точок), і кожній з таких відповідає “своя” функція виграшу гравців (наприклад, в грі “сімейний спор” було дві точки рівноваги у чистих стратегіях та одна рівновага в мішаних стратегіях). Дамо деякі важливі означення, які будуть використані надалі. Нехай перший та другий гравці дотримуються деяких мішаних стратегій x=(x1,x2,…,xn) та y=(y1,y2,…,ym) Домінування стратегій В загальному випадку стратегії неможливо порівняти між собою – в одних ситуаціях краще одна, в інших друга (звичайно, тут під ситуаціями слід розуміти вибір іншими гравцями своїх стратегій). Однак можливі випадки, коли одна стратегія є безумовно краще за інші. Означення Стратегія xi гравця i сильно домінує стратегію xi΄, якщо fi(xi,x-i) > fi(xi΄,x-i) для будь-якого x-i з X-i. Якщо в означенні знак > замінити на ≥, то говорять про слабке домінування. Означення. Стратегія xi гравця i називається (слабо) домінуючою або домінантною, якщо вона (слабо) домінує будь-яку стратегію з Xi. Означення. Стратегія xi гравця i називається домінованою, якщо її домінує якась інша стратегія з Xi. Використання гравцем його домінантної стратегії є раціональним за будь-яких припущень. Якщо у гравця є така стратегія, то йому не треба знати функції виграшу інших гравців та строїти припущення про їхню можливу поведінку та ситуацію, що може скластися в результаті цього – просто треба застосувати свою домінантну стратегію. За припущення про раціональну поведінку гравців, іншим гравцям треба припустити, що він застосовує свою домінантну стратегію та виключити його зі списку гравців. Застосування домінантних стратегій на перший погляд здається очевидним та безспорним. Можна показати, що якщо гравець має домінантну стратегію, то ця стратегія входить до точки рівноваги за Нешем (як його чиста стратегія). Але розглянемо приклад, який суперечить тезі про безумовну перевагу домінантних стратегій. 56 Приклад 5.3. Розглянемо біматричну гру.  101 1   0 1 , B    A   100 0  100 0  На перший погляд все зрозуміло – друга стратегія першого гравця домінується першою, отже, виключається. Першому гравцю треба завжди вибирати першу стратегію, а другому – другу, таким чином, маємо єдину точку рівноваги за Нешем (1,2), f(1,2)=(1,1). Припустимо тепер, що гра подовжується багатократно. Тоді, звичайно, перший гравець дуже бажає, щоб другий гравець грав 1-й, а не 2-й стовпець, примусити його це робити не може, але виявляється, що може стимулювати. Наприклад, нехай 1-й гравець дотримується мішаної стратегії (0.9, 0.1). Тоді, якщо 2-й гравець дотримується своєї 1-ї стратегії, то його (2-го гравця) середній виграш складає 100·0.1=10, а якщо першої – то 0.1·9=0.9. Отже, 2-й гравець буде дотримуватись своєї першої стратегії, що забезпечить 1-му гравцю виграш 0.9·101+0.1·100=100.9, зрозуміло, що це значно краще, ніж виграш 1, який відповідає точці рівноваги за Нешем. Але знайдена значно краща для обох гравців ситуація не є точкою рівноваги. Дійсно, якщо 1-й гравець почне сприймати поведінку 2-го гравця (вибір ним 2-го стовпця) як екзогенну (“дану від бога”) і забуде, що така поведінка 2-го гравця диктується його (1-го гравця) поведінкою, то він почне знову дотримуватись своєї першої чистої стратегії, щоб одержувати середній виграш 101. Тоді з плином часу 2-й гравець почне дотримуватись своєї 2-ї стратегії і ситуація перейде у згадану точку рівноваги. Так деякі промисловці вважають витрати на екологію та природозберігання зайвими або або такими, що навязані урядом, забуваючи про те, що належний стан природи є необхідною умовою можливості використання природних ресурсів (і отже, одержання ними прибутку). Означення. Ситуація xN=(x1,x2,…,xn) називається ситуацією в домінантних стратегіях, якщо для будь-якого гравця i стратегія xi є домінантною. Якщо такі рівноваги існують, то їх можна вважати розвязками гри. Насправді такі ситуації трапляються рідко. Одним з прикладів є розглянута вище “ділема злодія”, розглянемо інший приклад. Приклад 6.3. Аукціон другої ціни (Аукціон Вікрі). Нехай деякий предмет продається на аукціоні та є два покупці, A та B, для яких цінніть предмету дорівнює a та b, нехай для визначеності a>b. Найпростішим аукціоном закритого типу є такий: покупці в закритому вигляді пропонують ціну. Предмет дістається тому, хто назвав максимальну ціну. Нехай для визначеності якщо запропоновано однакові ціни, то предмет одержує перший покупець. Тут функції виграшу гравців мають вигляд 57 a  x, x  y f 1 ( x, y )   ,  0, x  y b  y, y  x f 2 ( x, y )    0, y  x Якщо цінність предмета для B дорівнює b, то йому немає сенсу називати більшу ціну, ніж b. А метою А є вгадати, яку ціну призначить В і призначити таку саму ціну, таким чином, в цьому випадку в нього немає домінантної стратегії. Однак, можливим є інший спосіб організації аукціону. В ньому переможець визначається як і раніше (тобто той, хто призначив максимальну ціну), але при цьому він платить ціну, запропоновану другим покупцем. В цьому випадку функції виграшу гравців мають вигляд a  y, x  y f 1 ( x, y )   ,  0, x  y b  x, y  x f 2 ( x, y )    0, y  x В цьому випадку в обох покупців є домінантна стратегія, а саме – назвати ціну, рівну цінності предмету для нього. Такий самий ефект зберігається у випадку довільної кількості покупців. Щодо використання слабо домінантних стратегій, то тут треба зробити застереження, яке ілюструється наступним прикладом. Приклад 7.3. Взаємна люб’язність. Розглянемо біматричну гру. 1 0  1 1 , B    . Для першого гравця обидві можливі стратегії є рівноA   1 0   0 0 значними, і отже, кожна з них слабо домінує іншу. Першому гравцю байдуже, яку з двох стратегій вибирати, але його вибір не є байдужим другому гравцю. Якщо перший гравець поводить себе люб’язно, щодо другого гравця, то він повинен вибрати перший рядок. Аналогічно, другий гравець, за умови люб’язності, щодо першого гравця, повинен вибирати перший стовпець. Таким чином, f(1,1)=(1,1). Такий принцип люб’язності лежить в основі етики людських відносин – робити те, що приносить користь іншим, але не особі, що її робить (але й не потребує від неї додаткових витрат чи зусиль, наприклад, дати переписати диски з фільмами, музикою, подарувати непотрібну тобі, але потрібну іншому річ, тощо), колись якусь люб’язність проявлять і до тебе. Видалення домінованих стратегій Зрозуміло, що раціональний гравець ніколи не буде грати доміновані стратегії, тому вони можуть бути виключені з розгляду. Його логіка є простою та зрозумілою – нащо отримувати менше, якщо при заміні домінованої стратегії на ту, що її домінує за будь якої поведінки інших гравців можна отримати більше. Легко показати, що домінована стратегія не 58 входить у рівновагу за Нешем. Дійсно, заміна цієї стратегії на ту, що її домінує суперечить умові, що відхилятись від даної стратегії невигідно. Розглянемо так званий випадок повної інформованості. Це означає, що кожен з гравців є раціональним та вважає інших гравців раціональними. Крім того, всі гравці знають функції виграшу один одного, знають, що всі це знають і т.д. Розглянемо метод виключення на прикладі. Приклад 8.3. Розглянемо біматричну гру (0,4)   (4,3) (2,7)  . A, B    (5,5) (5,1) (4,2)  У першого гравця домінування немає. У другого гравця його друга стратегія (сильно) домінує третю, тому другий гравець може виключити свою третю стратегію з розгляду. Якщо перший гравець знає функції виграшу 2-го та припускає його раціональність, то він розуміє, що 3-й гравець не буде грати свою 3-тю стратегію, тому гра спрощується до вигляду  (4,3) (2,7)    .  (5,5) (5,1)  Тепер у першого гравця його 2-га стратегія домінує 1-шу, і він виключає свою першу стратегію. Це розуміє 2-й гравець, тому він серед двох елементів, що лишилися ((5,5), (5,-1)) вибирає стовпець, що максимізує його виграш (тобто 1-й). Таким чином, маємо розв’язок гри (2,1), f(2,1)=(5,5). Застосований метод носить назву метод послідовного виключення строго домінованих альтернатив. Ігри, де такий процес приводить до успіху називаються такими, що мають розв’язок за домінуванням. В іншому разі може залишатись по декілька стратегій у кожного з гравців. Такі стратегії називають такими, що вижили, або обгрунтованими стратегіями. Важливим є той факт, що множина обгрунтованих стратегій не залежить від послідовності виключення строго домінованих стратегій. Ще раз підкреслимо, що такий метод базується на припущенні раціональної поведвнки всіх гравців. Якщо якийсь з гравців відхиляється від раціональної поведінки, то це може призвести до негативних наслідків для всіх. Наприклад, якщо 2-й гравець поведе себе нераціонально і вибере 3-тю стратегію (а 2-й гравець про це не буде знати), то це призведе до ситуації (-4,-2), тобто до програшу обох гравців. Таку ситуацію ілюструє народне прислів’я “краще з розумним загубити, ніж з дурнем знайти”. В сучасному місті пішохід, переходячи вулицю, повинен дивитись не тільки на світлофор (і виходити з припущення, що всі водії є раціональними, отже вони не порушують правил дорожнього руху), але й за реальною ситуацією на дорозі. 59 Видалення домінованих стратегій у мішаному розширенні біматричної гри Мішане розширення біматричної гри вводиться аналогічно випадку матричної гри. Під мішаною стратегією першого гравця будемо розуміти “ймовірнісний” вектор P=(p1,p2,…,pm), який задовольняє обмеженням m p i 1 i  1, pi  0, i  1,..., m . Фактично це означає, що перший гравець вибирає i-й рядок з ймовірністю pi. Аналогічно, мішана стратегія другого гравця описується вектором Q=(q1,q2,…,qm) і фактично це означає, що другий гравець вибирає j-й стовпець з ймовірністю qj. Припускаючи, що гравці є байдужими до ризику (в противному разі згідно теореми Фон-Неймана – Моргенштерна виграші можна замінити на їхні корисності), маємо, що функція виграшу та має вигляд m n    m n  f ( P, Q)     pi q j aij ,  pi q j bij   PAQ T , PBQ T . i 1 j 1  i 1 j 1    Дана функція є білінійною, щодо ймовірностей, тобто m n     f P, Q   pi f ei , Q   q j f P, e j     i 1   j 1 Де ei, ej – чисті стратегії гравців. Для мішаного розширення гри під домінованою стратегією гравця розуміють стратегію, яка може думінуватись не тільки однією його іншою стратегією, а й симплекс-комбінацією інших стратегій. Якщо деяка стратегія є строго домінованою, то вона не входить до рівноваги за Нешем. Більш того, покажемо, що у випадку рівноваги у мішаних стратегіях домінована стратегія може входити до відповідної мішаної стратегії лише з нульовим коефіцієнтом, отже, доміновану стратегію раціональний гравець взагалі може виключити з розгляду (викреслити). Теорема. Нехай P*,Q* - точка рівноваги в біматричній грі в мішаних стратегіях та ei- домінована стратегія першого гравця. Тоді ця стратегія входить до P* з нульовою ймовірністю, тобто i-та компонента P* дорівнює нулю. Доведення. Припустимо супротивне. Нехай P*=(p1,…,pn) та pi>0. За припущенням ei- домінована стратегія першого гравця, отже, існує такий набір чисел αk, що f ei , Q *     k f ek , Q *  , де  k  0,   k  1 , тоді k i 60         f ( P * , Q * )   p k f e k , Q *  p i f ei , Q *   p k f e k , Q *  p i   k f ( e k , Q * )   p k f e k , Q *  k        pi k  p k  f ek , Q *  f P 0 , Q * . k i k i k i k i В останній рівності коефіцієнти piαk+pk набувають значень від 0 до 1 та їхня сума дорівнює 1, отже можна трактувати їх як ймовірності вибору рядків, а відповідну мішану стратегію позначити через P0. В одержаному ланцюжку нерівностей розглянемо перший та останній член f ( P* , Q* )  f ( P 0 , Q* ) , що суперечить припущенню, що P*,Q* - точка рівноваги, отже pi=0. Звичайно, дана теорема є також справедливою і для другого гравця і доводиться це аналогічно. Приклад. Нехай в біматричній розширеній грі матриця виграшів першого гравця має вигляд  8 2 1   A   2 8 5  4 3 3   Показати, що його мішана стратегія (1/3,1/3,1/3) є домінованою та знайти стратегію, що домінує її. Розв’язок. Оскільки дана мішана стратегія містить всі компоненти з додатніми ймовірностями, то згідно доведеної вище теореми вона буде домінованою, якщо принаймні одна з чистих стратегій є домінованою. Домінованою не може бути 1-ша стратегія (1-ша компонента 1-го рядка містить максимальний елемент 1-го стовпця). Аналогічно, 2-га стратегія також не може бути домінована. 3-й рядок слабо домінується напівсумою 1го та 2-го рядків. Але якщо “трохи” збільшити коефіцієнт при 2-му рядку (і відповідно зменшити при 1-му, то матиме місце строге домінування: 4 1  3 2 8 2 1  3 2 8 5   22 28 17  . Отже 5 5 5 5  5 1 1 1  12 3  7 8  0   0   0 .  3 3 3  3 5 5   15 15  3 3  1 3 Наступний приклад демонструє застосування методу послідовного виключення строго домінованих альтернатив, спираючись на можливості виключення в розширеній грі. Приклад. Розглянемо біматричну гру  8 2 1  3 7 1     A   2 8 5 , B   4 3 5  .  3 5 3  9 4 3     В межах чистих стратегій 1-й гравець не має домінованих рядків, 2-й гравець не має домінованих стовпців. Розглянемо мішане розширенння гри. 61 1-й та 2-й рядки не можуть бути домінованими, оскільки містять максимальні елементи стовпців. 3-й рядок момінується комбінацією 1-го та 2-го, наприклад такою: 3 4 3  8 2 1  2 8 5   2 5 3 5 22  5 28 17   , отже, він 5 5 може бути викресленим. І оскільки гравці спираються на раціональну поведінку один одного, то викреслення відбувається в обох матрицях і переходимо до пари матриць:  8 2 1  1  3 7 1  , B    . A 1   2 8 5 4 3 5     2-й та 3-й стовпці B(1) не можуть бути домінованими, а 1-й стовпець домінується комбінацією 2-го та 3-го: 3 4 T 2 3  17 T T  7 3  1 5   5 5 5 T 21   . 5 Зауважимо, що у вихідній мариці В 1-й стовпець не домінувався. Викреслюємо 1-й стовпець:  2 1  2   7 1  , B    . A ( 2 )    8 5  3 5 1-й рядок 1-го гравця домінується 2-м, викреслюємо 1-й рядок. При цьому в рядку. Що лишився 2-й гравець серед елементів 3 5 вибирає найбільший – 5. Таким чином, знайдено розв’язок гри в чистих стратегіях (2,3), f(2,3)=(5,5). Відзначимо, що точка (2,3) є точкою рівноваги вихідної гри в чистих стратегіях, оскільки елемент (2,3) є одночасно максимальним елементом 3-го стовпця матриці А та максимальним елементом 2-го рядку матриці В. Видалення слабо домінованих стратегій Сама процедура послідовного видалення слабо домінованих стратегій аналогічна видаленню домінованих стратегій, але наслідки цього можуть суттєво відрізнятись. А саме, множина стратегій, яка витримує послідовне видалення слабо домінованих стратегій (тобто залишаються), може залежати від порядку видалення стратегій. Дійсно, розглянемо наступну біматричну гру 1 0 1 0     A  1 2 , B  1 1 .  0 2 0 1     Назвемо три стратегії першого гравця В, С та Н (верх, середина, низ) відповідно, а дві стратегій другого – Л та П (ліво та право). Якщо спочатку видалити В (слабо домінується С), а потім Л (слабо домінується П), то приходимо до одного з двох рівнозначних наслідків (С,П) або (Н,П), f(С,П)= f(Н,П)=(2,1). Якщо ж спочатку видалити Н (слабо домінується С), а потім П (слабо домінується Л), то приходимо до одного з двох рівнозначних наслідків (В,Л) або (С,Л), f(В,Л)= f(С,Л)=(1,1). До яких несподіваних результатів може приводити видалення слабо домінованих стратегій, показує наступний приклад. 62 Приклад 5.3. Спонсорський грант. Нехай дехто пропонує матеріально допомогти двом гравцям за наступним правилом. Він пропонує кожному з гравців попросити будь-яку цілу кількість грошових одиниць від 1 до n (наприклад, від $1 до $100) і дає кожному з гравців суму, рівну мінімальному з їхніх прохань. (Якщо на цьому поставити крапку, то задача стає дуже простою, а саме зрозуміло, що для кожного з гравців стратегія попросити більшу суму слабо домінує стратегію попросити меншу, тому за умови раціональної поведінки гравців повинна скластись ситуація (n,n), яка домінує за Парето всі інші, f(n,n)=(n,n). Все просто – проси більше і отримаєш не менше). Припустимо тепер, що спонсор робить додатковий транфер (який можна назвати покаранням жадібності), а саме якщо гравці попросили різні суми, то він віднімє від виграшу того, хто попросив більше і додає до виграшу того, хто попросив менше, деяку суму s. Якщо обидва гравці попросили однакову суму з допустимого діапазону [1;n], то кожен з них її отримує і трансферу не відбувається. Розлянемо випадок s=1. Тоді матриці виграшу гравців рівні Ai j= min(i,j) + χ(i<j) -χ(i>j), B=AT. Дана гра має n точок рівноваги за Нешем в чистих стратегіях (i,i), f(i,i)=(i,i), i=1;n. З точки зору здорового глузду в такій грі має бути вибрана ситуація (n,n), f(n,n)=(n,n) (це точка, домінантна за Парето). Але подивимось, що відбудеться, якщо брати до уваги видалення слабо домінованих стратегій). Для 1-го гравця n-й рядок домінується (n-1)-м, отже, 1-й гравець може його видалити. Оскільки гра симетрична, то 2-й гравець видаляє n-й стовпець і таким чином гравці переходять до матриць розмірності (n-1)×(n-1). Аналогічно видаляються (n-1)- й рядок та стовпець і так далі, і остаточно гра зводиться до ситуації (1,1), тобто начебто гравцям треба попросити лише $1, та одержати цей більш, ніж скромний виграш! 1  0 0  A   ... 0  0  0 2 2 1 ... 1 1 1 2 3 3 ... 2 2 2 2 2 2 2   3 3 3 3  4 4 4 4   ... ... ... ...  , B  AT ... n  2 n  1 n  1 ... n  3 n  1 n   ... n  3 n  2 n  . Якщо ж сума трансферу складає 2 або більше, то гра взагалі матиме єдину точку рівноваги в чистих стратегіях (1,1). Але зрозуміло, що якщо сума трансферу значно менша, ніж максимальний потенційний виграш, то раціональною стратегією буде просити максимальну суму і якщо можливі попередні переговори, то повідомляти про це іншого гравця) і отримати максимальну суму (можливо, мінус незначні втрати). Тут “раціональність” слід розуміти з точки зору здорового глузду, але це суперечить теорії ігор! 63 Читачеві пропонується знайти розвязки даної гри в мішаних стратегіях. Так в чому ж різниця наслідків видалення домінованих та слабо домінованих стратегій? Якщо після видалення домінованих стратегій залишаються всі точки рівноваги (див. відповідний розділ) , то після видалення слабо домінованих стратегій може статись так, що деякі точки рівноваги будуть зникати (про це свідчать два попередніх приклади, але при цьому залишиться принаймні одна точка рівноваги в чистих або мішаних стратегіях. Доведемо це. Теорема. Нехай задано мішане розширення гри в нормальній формі. Тоді, після одного чи декількох видалень слабо домінованих стратегій у грі залишається принаймні одна точка рівноваги у мішаних стратегіях. Доведення.Нехай у мішаному розширенні гри   N ,{co( X i )}iN ,{ f i ( x)}iN  і-й гравець має ni чистих стратегій і одна з чистих стратегій слабо домінує іншу. Для визначеності припустимо, що k-та стратегія i-го гравця слабо домінує його ni – ту чисту стратегію, тобто xi  f i (ek , xi )  f i (eni , xi ) (тут ek – к-та чиста стратегія i-го гравця). Видалимо ni –ту стратегію i-го гравця та розглянемо гру, що лишилася. В цій грі згідно теореми Неша існує точка рівноваги, принаймні у мішаних стратегіях. Позначимо її x*=(x1,x2,…,xi-1,xi,xi+1,…,xn), де xj можуть бути мішаними, наприклад, нехай xi  ( p1 p2 , .. pni 1 ) . “Повернемо” видалену ni-ту стратегію i-го гравця та покажемо, що точка x* є точкою рівноваги для вихідної гри. Дійсно, спочатку відзначимо, що умова рівноваги автоматично зберіглась для всіх гравців, крім i-го (дійсно, “нова” ni-та стратегія з’явилася лише у i-го гравця, а не в них). Розглянемо довільну стратегію xxi, яка містить ненульову останню ni -ту компоненту та покажемо, що xi є не гіршою за неї, fi(xi)≥fi(xxi). Дійсно, нехай xxi  (q1 , q2 , .., qni1 , qni ) , тоді в силу лінійності функцій виграшу маємо: f i ( xxi )  q1 f i (e1 )  ...  q ni f (eni )  q1 f i (e1 )  q 2 f i (e2 )  ..  (q ni  q k ) f (ek )  ...  q ni 1 f (eni 1 )   p1 f (e1 )  ..  p ni 1 f (eni 1 )  f i ( xi ) Тут для зручності застосована скорочена форма запису, так взагалі замість f i (ei ) треба писати f i (ei , xi ) . В ланцюжку перша нерівність справедлива в силу припущення, що k-та стратегія домінує ni-ту, тобто f i (ek )  f i (eni ) . Друга нерівність справедлива в силу припущення, що xi є точкою рівноваги для гри з “викресленим” рядком. Зауваження. Якщо якась стратегія гравця слабо домінується опуклою лінійною комбінацією інших рядків, то зберігаються всі висновки, щодо видалення такої стратегії. Доведення цього твердження в основному повторює наведене вище доведення і пропонується читачеві в якості самостійної вправи. В наступному прикладі покажемо, як видалення слабо домінованої стратегії може видалити точку рівноваги у чистих стратегіях, але зберігає рівновагу у мішаних стратегіях. Дійсно, нехай 64  1  1  1 1      A    1 1 , B   1  1 .  2 1  1 2     Дана гра має точку рівноваги у чистих стратегіях (3;2), f(3;2)=(1;2). У першого гравця третя чиста стратегія слабо домінується другою. При її видаленні зникає і вказана точка рівноваги, але зберігається точка рівноваги у мішаних стратегіях x=(1/2,1/2,0), y=(1/2,1/2), f(x,y)=(0;0). У грі, що лишилася, немає точок рівноваги у чистих стратегіях, але вказана точка рівноваги у мішаних стратегіях зберігається. Розглянемо приклад видалення слабо домінованих стратегій для випадку трьох гравців. Нагадаємо телешоу “слабое звено”. В ньому гравці спочатку відповідають на запитання, а потім одночасно голосують проти інших гравців, визначаючи, хто був найгіршим. Той, хто набере максимальну кількість голосів “проти”, залишає гру, всі інші переходять в наступний тур. Після ігрового туру та перед голосуванням визначається гравець, який за об’єктивними даними грав найкраще, він одержує звання “сильное звено” та певні привілегії при голосуванні, а саме: якщо деякі з гравців наберуть рівну кількість голосів “проти”, він вирішує, хто залишить гру. Теоретично може склатись ситуація, коли “сильное звено” набирає максимальну кількість голосів “проти” та залишає гру. Нехай в черговому турі залишилося три гравці. Тоді з формальної точки зору гра має такий вигляд. N={1, 2, 3}, X1={2,3), X2={1,3}, X3={1,2}. Визначимо функції виграшу гравців наступним чином. Нехай функція виграшу – це індикатор того, чи проходить гравець у наступний тур, тобто виграш гравця дорівнює нулю, якщо він залишає гру та одиниці, якщо він проходить у наступний тур. Не порушуючи загальності міркувань припустимо, що “сильным звеном” виявився перший гравець і подивимось на гру з точки зору третього гравця. Можливі ситуації і відповідні функції виграшу третього гравця наведемо в таблиці. x1 2 2 3 3 x2 1 3 1 3 x3 1 1 1 1 f3 2 2 2 2 1 1 1 0 1 1 0 0 Розберемо послідовно по рядках, чому функції виграшу третього гравця саме такі. 1-й рядок – 1-й гравець голосує проти другого, а другий проти першого – отже виженуть того, проти кого проголосує 3-й гравець, але він в будьякому разі залишається. 2-й рядок – 1-й гравець голосує проти другого, другий проти третього. Якщо 3-й гравець проголосує проти 2-го, то 2-го виженуть. Якщо проти 65 першого, то всі гравці матимуть по одному голосу “проти” і згідно пріорітету голосу 1-го гравця виженуть 2-го. Отже, в будь-якому разі 1-й гравець залишається. 3-й рядок – 1-й гравець голосує проти 3-го, 2-й проти 1-го. Якщо 3-й гравець проголосує проти 1-го, то 1-й гравець набере два голоси проти та його виженуть (отже 3-й лишиться), а якщо проти 2-го, то всі гравці одержать по одному голосу “проти” і згідно пріорітету голосу 1-го гравця виженуть 2-го. Отже, в цій ситуації краще голосувати проти 1-го гравця. 4-й рядок – 1-й та 2-й гравці проголосували проти 3-го гравця, отже, його виженуть в будь-якому разі, незалежно від того, проти кого він проголосував. Таким чином, для 3-го гравця його стратегія 1 слабо домінує 2, і отже, він вибере її. Таким чином, для гравця, що не є “сильным звеном”, голосувати проти “сильного звена” є слабо домінуючою стратегією. Але такі самі висновки справедливі і для 2-го гравця, отже, за умови раціональної поведінки всіх гравців виженуть, як це не парадоксально, 1-го гравця. Означення. Спектром мішаної стратегії x=(x1,x2,…,xn) (позначається [x] ) називається така множина чистих стратегій ei, яка відповідає додатнім компонентам вектору x. [x]={ei | xi>0} . Чиста стратегія називається активною, якщо вона належить спектру (або, іншими словами, гравець вибирає її з додатньою ймовірністю) та пасивною в іншому разі. Мішана стратегія називається цілком мішаною, якщо всі n чистих стратегій, що утворюють її, є активними (або, іншими словами, належать спектру). Теорема про активні стратегії. Нехай (x*,y*) – точка рівноваги в біматричній грі. Нехай x●, y● – довільні мішані стратегії першого (другого гравця, такі, що їхні спектри є підмножинами спектрів x* та y* відповідно. Тоді справедливі рівності f1(x●, y*)=f1(x*,y*), f2(x*,y●)= f2(x*,y*). Іншими словами, якщо в точці рівноваги один з гравців відхиляється від вибраної стратегії, залишаючись в межах своїх активних стратегій, то це не впливає на його функцію виграшу. Доведення. Нехай (x*,y*) – точка рівноваги. Покажемо спочатку, що виграш першого гравця не зміниться при зміні його стратегії на будь-яку чисту стратегію, що належить спектру x*, тобто ei  [ x* ]   f1 (ei , y * )  f1 ( x* , y * ). Зрозуміло, що для жодногї з чистих стратегій ei не може виконуватись рівності f1 ei , y *   f1 ( x * , y * ) , оскільки це суперечить припущенню, що (x*,y*) – точка рівноваги. Отже, для всіх чистих стратегій зі спектру x* f1 ei , y *   f1 ( x * , y * ) . Покажемо,що всі нерівності насправді є рівностями. Дійсно, нехай для деякого i має місце строга нерівність: f1 ei , y *   f1 ( x * , y * ) . 66 Тоді маємо ланцюжок f1 ( x * , y * )  x   ii  x i f1 (ei , y * )  x   i x * i f1 ( x * , y * )  f1 ( x * , y * ) , * З якого випливає суперечна нерівність, отже i  [ x * ] f1 ei , y *   f1 ( x * , y * ). Оскільки рівності виконуються для всіх чистих стратегій зі спектру x*, то вони будуть виконуватись, якщо зліва замість однієї чистої стратегії буде стояти їхня ймовірнісна суміш. Для другого гравця теорема доводиться аналогічно.■ Зауваження. З теореми про активні стратегії випливає, що якщо точки рівноваги містять мішані стратегії, то ці стратегії не є строгими. Тобто, якщо один з гравців відступає від точки рівноваги, знаходячись в рамках своїх активних стратегій, а опонент дотримується точки рівноваги, то середній виграш гравця, що відступив від рівноваги, залишаєтьться такий самий, а середній виграш опонента може збільшуватись або зменшуватись. Продемонструємо це на прикладі. Розглянемо матричну гру, для якої вище була знайдена точка рівноваги  2 2   4  3 , B    A    3  1  2 1  для цієї гри x*=(3/10,7/10), y*=(3/8,5/8), f(x*,y*)=(0.5,-0.2). Нехай перший гравець відхиляється від своєї мішаної стратегії (розглянемо, наприклад, дві його чисті стратегії), а другий гравець-ні. Тоді 1 3 1 1 1 1 , e1 By *T     , e2 Ay *T  , e2 By *T     , 2 8 5 2 8 5 3 1 1 1 1 1 x * Ae1T   , x * Be1T    , x * Ae 2T   , x * Be 2T   2 2 5 2 10 5  1 3 1 1  3 1  1 1 f (e1 , y * )   , , f e2 , y *    , , f x * , e1    ,  , f x * , e2     ,  .  2 8  2 5  2 5  10 5  e1 Ay *T  Обережна поведінка (обережні стратегії) Розглянемо ситуацію, в якій гравцю абсолютно невідомі переваги інших гравців. В цьому випадку він не може зробити ніяких припущень відносно стратегій інших гравців та повинен орієнтуватись на найгірший для себе наслідок. Нехай гравець i вибирає стратегію xi. Тоді його виграш в найгіршій для нього ситуації, тобто гарантований виграш, дорівнює f i ( xi )  min f i ( xi , xi ) . x i _ Виходячи з таких міркувань, гравець повинен вибрати з найбільшим f i ( xi , xi ) . Це число позначається гарантованим виграшем max f i ( xi )  max min x i xi _ xi 67 αi. Стратегія s*i, яка забезпечує максимум функції ui (.) , називається _ обережною стратегією гравця i , а число αi – гарантованим результатом або максиміном. Вибір обережної стратегії можна називати песимістичною. Гравець, що дотримується цієї стратегії, веде себе раціонально (вибирає свою стратегію, яка максимізує його функцію виграшу), але за припущення, що всі інші гравці думають не про те, як максимізувати власний виграш (зробити найкраще собі), а як мінімізувати його виграш (зробити найгірше йому). Нагадаємо, що для антагоністичної гри це одне й те ж саме. Суть обережної стратегії можна пояснити на простму прикладі. Нехай задано біматричну гру з такими платіжними матрицями.  0 0  0  1  , B    . A    1 3 0 3  Цей приклад називається координацією зусиль. Нехай є деяка мета, яку можна досягти лише зкоординованими зусиллями двох осіб. Наприклад, нехай є бізнес-план, який полягає в виробництві продукції та її транспонтуванні до місця, де на неї є стабільний попит. Нехай перший гравець відповідає за виробництво, а другий -за транспорт. Кожен з гравців має дві стратегії- (1) – “не працювати” та (2) – “працювати”. Стратегія (2) потребує від кожного з гравців певних зусиль та капіталовкладень. Стратегія (1) не потребує цього, але й не дає прибутку. Вибір стратегії (2) вигідний обом гравцям, оскільки лише тоді вони отримають прибуток, який перекриває їхні капіталовкладення. Якщо ж один з гравців вибирає (1), а другий (2), то той, що вибрав (1), нічого не набуває та не втрачає, а другий гравець втрачає одиницю. Тому в даній грі стратегія (1), яка гарантує від втрат і буде обережною стратегію. Вибирати стратегію (2) слід тільки у випадку, якщо він впевнений у надійності іншого гравця. Ситуації (1,2) або (2,1) означає, що партнер підвів. Якщо всі гравці ведуть себе обережно, то відповідна ситуація називається рівновагою у обережних стратегіях (x*N). Відзначимо, що в цьому випадку виграші можуть бути більшими, ніж песимістичні сподівання, тобто fi(x*N)≥αi. Поряд з числом αi цікаво розглянути інше число (мінімакс)  i  min max f i ( xi , x i ) . x i xi Фізичний зміст цього числа – це мінімальний (гарантований) виграш iго гравця у випадку, якщо всі гравці, крім i-го зробили свої вибори та повідомили про них першого гравця, а він, використовуючи цю інформацію, максимізує свою функцію виграшу в ситуації, що склалася (і яка йому відома заздалегідь). Звідси зрозуміло, що виконується нерівність max min f i ( xi , x i )   i   i  min max f i ( xi , x i ) . x i x i xi xi Цю нерівність можна довести формально, не вдаваючись у зміст α та β. Нехай задано функцію від двох змінних, x та y. Тоді для будь-яких x та y справедлива нерівність 68 min2 f(x,.) ≤ f(x,y) ≤ max1 f(.,y) (тут min2 означає мінімум по другому аргументу, а max1 – максимум по першому). Нехай A означає множину “лівих” чисел (тобто, чисел виду min2 f(x,.) при всіх можливих значеннях x , а В – множину “правих” чисел (тобто чисел виду max1 f(.,y) при всіх можливих значеннях y). Але тоді й максимум (або супремум) лівих чисел менше або дорівнює мінімума (або інфімума) правих. Пошук розв’язку біматричної гри в цілком мішаних стратегіях Нехай задано матриці А та В, які є квадратними (n×n) та невиродженими. Припустимо, що гра з заданою парою матриць має точку рівноваги у цілком мішаних стратегіях (x*,y*). Нехай vx, vy – виграші першого/другого гравців в точці рівноваги. Тоді, за теоремою про активні стратегії i  1, n v x  ei Ay * , v y  x * BeiT , отже Ay* - це вектор-стовпець, кожна компонента якого дорівнює vx x*B – це вектор-рядок, кожна компонента якого дорівнює vy. Нехай Jx та Jy – це вектор-стовпець/рядок з n компонентами, кожна компонента якого дорівнює 1, тоді Ay*=vxJx, x*B=vyJy, звідси, оскільки за припущенням матриці А та В невироджені, то y*=vx A-1Jx, x*=vyJyB-1. Помножимо першу рівність зліва на Jy, а другу рівність справа на Jx, тоді в лівих частинах обох рівностей матимемо суму компонент вектора стратегії (ймовірностей), яка дорівнює 1. Звідси 1=vx Jy A-1Jx , 1=vy Jy B-1Jx, звідси vx  1 1 , vy  1 JyA Jx J y B 1 J x Тобто виграш гравця в точці рівноваги дорівнює величині, оберненій сумі елементів матриці, оберненої до його платіжної матриці, звідси x*  J y B 1 J y B 1 J x , y*  A 1 J x J y A 1 J x Компоненти вектора x* дорівнюють сумі елементів відповідного за номером стовпця матриці B-1, поділеній на суму всіх елементів матриці B-1, а компоненти вектора y* дорівнюють сумі елементів відповідного за номером рядка матриці A-1, поділеній на суму всіх елементів матриці A-1. Відзначимо, що стратегії гравців залежать від платіжної матриці опонента і не залежать від власної платіжної матриці. Якщо якась з платіжних матриць А чи В є виродженою, то можливо можна уникнути виродженості та перейти до невиродженої матриці шляхом додавання до всіх елементів деякої константи (що, по суті означає додатковий платіж гравцю, який не впливає на точки рівноваги). Потім треба буде відняти додану константу від величини виграшу гравця. 69 Взагалі даний метод є в деякій мірі “авантюрним”, оскільки існування розв’язку спочатку припускається, а потім шукається. Виходячи з наведених формул, критерієм існування розв’язку є те, що всі суми елементів матриць А-1 по рядках та В-1 по стовпцях мають однаковий знак (окремо перевіряємо для А-1 та окремо для В-1). Розглянемо біматричну гру 2×2. В даній грі можливі три ситуації. 1) Один з гравців має домінуючу стратегію. Тоді ця стратегія є домінуючою і для всіх його мішаних стратегій і шляхом виключення домінованих стратегій приходимо до єдиної точки рівноваги. 2) Гра не має точок рівноваги у чистих стратегіях. Це може бути, якщо a11  a21 , a12  a22 , b11  b12 , b21  b22   a11  a21 , a12  a22 , b11  b12 , b21  b22  Тоді гра має єдину точку рівноваги у суто мішаних стратегіях:   b22  b21 b11  b12 , x *   , b11  b22  b12  b21   b11  b22  b12  b21   a 22  a12 a11  a 21  y *   , a11  a 22  a12  a 21   a11  a 22  a12  a 21 з виграшами vx  A B . , vy  a11  a 22  a12  a 21 b11  b22  b12  b21 3) Гра має дві точки рівноваги у чистих стратегіях. Це може бути, якщо a11  a21 , a12  a22 , b11  b12 , b21  b22   a11  a21 , a12  a22 , b11  b12 , b21  b22  . Тоді у грі виникає ще одна точка рівноваги у мішаних стратегіях, і точка рівноваги обчислюється за формулами другого випадку. Приклад 1.3.1 (Був розв’язаний геометрично, див. вище).  2 2   4  3 , B    . A    3  1  2 1  Тут немає точок рівноваги у чистих стратегіях. Знайдемо точку рівноваги у мішаних стратегіях:   3 7 1  (2) 4  (3)    ,  , x *   ,  4  1  (2)  (3) 4  1  (2)  (3)   10 10  1 2  23  3 5  y*   ,    , ,   2 1 3  2  2 1 3  2   8 8  70 vx  (2)(1)  3  2 1 4  1  (2)(3) 1  , vy   .  2 1 3  2 2 4  1  (2)  (3) 5 Відповідь співпадає з одержаною вище. Приклад 2.3 (сімейний спор).  2 0 1 0 , B    . A    0 1  0 2 Тут, як вже відмічалося вище, є дві точки рівноваги у чистих стратегіях і повинна бути точка рівноваги у мішаних стратегіях. Знайдемо її. 2 2 2 2  2  0 1 0   2 1  * 1 0 2  0   1 2  x*   , ,  , vy   .    , , y      , , v x  2 1 3 1 2 3  1 2 1 2   3 3  2 1 2 1   3 3  Відповідь співпадає з одержаною вище. Приклад 3.3.  1 0 1   2 1  1     A   2  1 0 , B   1  1 1   0 3  1  1 0 0      В даній грі немає точок рівноваги у чистих стратегіях. Спробуємо відшукати рівновагу у мішаних стратегіях. Виявляється, що матриця В є виродженою. Збільшимо всі її елементи на 1 та розглянемо матрицю B’, яка вже не буде виродженою.  3 2 0   B   2 0 2  . Знайдемо обернені матриці до А та B’. 0 1 1   2  4 1 3 1  2   1 1 1 1 A   2 1 2 , B    2  3 6  . 5 10   4  6 3 1  2 3 ' Обчислимо суми елементів матриці A-1 по рядках та матриці (B’)-1 по 1 5 1 5 стовпцях: SA1  1, SA2  1, SA3  2, SB  , SB2  , SB3  3 . 5 Всі SAi та SBi мають (між собою) однаковий знак , отже рівновага в суто мішаних стратегіях існує. vx   1 1 1  , v 'y  1 ' SA1  SA2  SA3 4 SB1  SB2'  SB3'  1 1 3 x *  v 'y SB1' , SB2' , SB3'   , , , 5 5 5 71 1 1 1 y *  v x SA1 , SA2 , SA3    , ,  . 4 4 2 Не забуваємо, що елементи матриці В були збільшені на 1, отже v y  v 'y  1  0 . Для знайдених суто мішаних стратегій перевіримо виконання теореми про T T 1 1 1 активні стратегії: Ay *    , ,  , x * B  0,0,0 . 4 4 4 Отже, точку рівноваги у суто мішаних стратегіях знайдено вірно. Приклад 4.3.  3 2 0   2 3 0     A   0 4 3 , B   4 0 2  1 3 1  3 0 1     В даній грі немає точок рівноваги у чистих стратегіях. Спробуємо відшукати рівновагу у мішаних стратегіях. Обернені матриці дорівнюють 5 6   2   1 A 1    3  3 9 , 9 4  12   7 B 1 0  3 6   1  2  2 4  6   0 9  12  Тут суми елементів A-1 по рядках а B-1 по стовпцях мають різні знаки (щоб прийти до висновку, що розв’язку в суто мішаних стратегіях не існує, достатньо чогось одного). Протилежний по сумі елементів, щодо інших, є третій рядок A-1 та третій стовпець B-1. Перевіримо, можливо це є пасивні стратегії. Дійсно, третій рядок А слабо домінується напівсумою першого та другого та можна підібрати коефіцієнти так, щоб домінування було сильним. 1,3 ,1  1 3 ,2, 0  1 1, 4, 3, 1,3 ,1   1   3 ,2, 0   1   1, 4, 3 2 2 2  2  Аналогічна ситуація має місце для третього стовпця В: 0 ,2 ,1T  1  2 ,4, 3T  1 3, 0, 0T , 2 2 0 ,2 ,1T 1  1       2 ,4, 3     3, 0, 0 . 2  2  Отже, треті чисті стратегії обох гравців є домінованими, отже їх можна видалити та перейти до матричної гри з матрицями  3 2   2 3 , B1    A1   0 4  4 0 Дана пара матриць підходить під другий випадок розібраного прикладу, отже 12 4 4 5  2 3  x *   , , 0 , y *   , ,0 , v x  , v y  . 5 3 9 9  5 5  Для знайдених мішаних стратегій перевіримо виконання теореми про активні стратегії: Ay  * T T  12 12 11   4 4 10    , ,  , x* B   , ,  . 5 5 5 3 3 9  72 В кожному з обчислених векторів перша та друга компоненти співпадають та дорівнюють виграшу першого/другого гравця (що відповідає їхнім чистим активним стратегіям – першій та другій), а третя компонента – найменша (що відповідає третім, пасивним стратегіям). Отже, розв’язок знайдено вірно. Біматрична гра зі співпадаючими матрицями Розглянемо випадок, коли платіжні матриці гравців співпадають, тобто A=B. Тоді максимальним елементам матриць відповідають точки рівноваги, які до того ж є домінантами за Парето. Якщо можливі попередні переговори гравців, то узгодження стратегій очевидно – домовитись вибирати рядок та стовпець, що відповідають будь-якому з максимальних елементів. Якщо А має єдиний максимальний елемент, то розв’язок є також очевидним і без попереднього узгодження. Якщо максимальних елементів декілька та попередніх переговорів немає, то задача стає нетривіальною навіть у простих випадках, наприклад, нехай  2 1  . A  B   1  2   З формальної точки зору дана гра має дві точки рівноваги у чистих стратегіях (1, 2), F(1,2)=(1,1) та (2,1), F(2,1)=(1,1) та одну точку рівноваги у мішаних стратегіях (1/2,1/2), F(1/2,1/2)=(-1/2,-1/2). Але як насправді вести себе кожному з гравців – не зрозуміло. Якщо припустити, що переговори можливі, але до того, як гравці дізнаються платіжної матриці, можна досягти конвенції, наприклад такої: нехай перший гравець вибирає рядок з мінімальним номером, в якому є максимальний елемент, а другий гравець вибирає відповідний стовпець. Якщо А та В – одиничні матриці n×n, то тоді змістовна постановка задачі така: двом гравцям пропонують вибрати число від 1 до n та кожному з них обіцяють виграш, якщо ці числа співпадуть. Тут, з формальної точки зору гра має n точок рівноваги (i,i), але розумною стратегією гравців буде вибір 1. Близькою до даної є задача про зустіч. Нехай двоє друзів дізнаються, що вони знаходяться в одному місті, хочуть зустрітись, але не мають можливості домовитись про це. Тоді рекомендується зустрічатись о 12-й годині біля головної пам’ятки цього міста (в Київі –мабуть майдан незалежності, стовп нульовий кілометр). Стратегічна еквівалентність ігор Різноманітність безкоаліційних ігор диктує необхідність обєднання їх у такі класи, всередині яких ігри мають однакові властивості. В якості таких класів можна взяти класи стратегічно еквівалентних ігор. 73 Означення. Нехай є дві безкоаліційні гри Г* та Г** з однаковими множинами гравців та їхніх стратегій, та відрізняються між собою лише функціями виграшу: Г *  N ,{ X i }iN ,{ f i* }iN , Г **  N ,{ X i }iN ,{ f i** }iN  та нехай існує k>0, а для кожного гравця існує таке cj, що в будь-якій ситуації x та для всіх i  N виконується рівність f i** ( x)  kf i* ( x)  ci . Тоді ігри Г* та Г** називають стратегічно еквівалентними. Стратегічна еквівалентність ігор позначається Г*~Г**. Для того, щоб проказати, що введене співвідношення дійсно є відношенням еквівалентності, доведемо, що виконуються властивості еквівалентності. 1)Рефлексивність. Г*~Г**. Доведення. Покладемо k=0 ci=0 для всіх і та в будь-якій ситуації, тоді маємо Г*~Г**, що й треба було довести. 2) Симетричність. Якщо Г*~Г**, то Г**~Г*. Доведення. Нехай Г*~Г**, тоді ігри мають однакові множини гравців та їхніх стратегій, а функції виграшу звязані співвідношенням f i ** ( x)  kf i * ( x)  ci , k  0, ci  R  f i * ( x)  c 1 c 1 ** f i ( x)  i ,  0, i  R.  Г ** ~ Г * , k k k k що й треба було показати. 3) Транзитивність. Якщо Г~Г* та Г*~Г** то Г~Г**. Доведення. Нехай Г~Г* та Г*~Г**, тоді Г, Г* та Г** мають однакову множину гравців та їхніх стратегій, а фунції виграшу звязані таким чином: fi(x)=kfi*(x)+ci, fi*(x)=pfi**(x)+bi, k>0, p>0, ci€R, bi€R. Тоді fi та fi** звязані співвідношенням fi(x)=kpfi**(x)+(kbi+ci), що й означаэ еквівалентність Г~Г** за означенням. Таким чином, відношення стратегічної еквівалентності дійсно має всі властивості відношення еквівалентності і отже, розбиває всю множину безкоаліційних ігор на класи еквівалентних ігор, які попарно не перетинаються. Дана обставина дозволяє вивчати властивості ігор одного класу на прикладі одної гри з цього класу. Різниця між двома стратегічно еквівалентними іграми по суті полягає лише в різниці початкових капіталів гравців ci та одиниць виміру виграшів, які визначаються коеффіцієнnом k. Тому, зрозуміло що раціональна поведінка гравців в еквівалентних іграх повинна бути однаковою. Теорема. Стратегічно еквівалентні ігри мають однакові точки рівноваги. Доведення. Нехай Г~Г* та Г має точку рівноваги x*. Доведемо, що x* також є і точкою рівноваги у Г*. З означення ситуації рівноваги x* в грі Г випливає, що для всіх i  N , xi  X i справедлива нерівність f i ( xi , x*i )  f i ( xi* , x*i ) . Тоді у грі Г* матимемо kf i ( xi , x*i )  bi  kf i ( xi* , x*i )  bi (також для всіх i  N , xi  X i ). Оскільки k>0, то відповідні нерівності є попарно 74 еквівалентними, що означає, що означає, що множини точок рівноваги для Г та Г* співпадають. Означення. Безкоаліційна гра   N ,{X i }iN ,{ f i ( x)}iN  називається грою з нульовою сумою, якщо для всіх ситуацій x  X сумарний виграш всіх гравців дорівнює нулю та грою з постійною (фіксованою) суму виграшу, якщо сумарний виграш всіх гравців дорівнює деякій константі. Теорема. Будь-яка гра з постійною суму виграшу стратегічно еквівалентна грі з нульовою сумою. Доведення. Нехай   N ,{X i }iN ,{ f i ( x)}iN  - гра з постійною сумою, тоді для всіх ситуацій x  X вірно  f i ( x)  c, c  const . Виберемо довільні ci (i  N ) , для яких c iN * i iN i  c та розглянемо гру  *  N ,{ X i }iN ,{ f i* ( x)}iN  з функціями виграшу f ( x)  f i ( x)  ci . З одного боку, Г та Г* еквівалентні за означенням, з другого боку, Г* є грою з нульовою сумою, оскільки f iN * i ( x)  f i ( x)   ci  c  c  0 x  X . iN iN Алгоритм Лемке – Хаусона Знаходження рівноваги за Нешем в довільній, навіть скінченій грі, викликає певні труднощі. Випадок матричної гри (антагоністичної гри двох осіб) розроблений найбільш повно. Така гра зводиться до пари задач лінійного програмування, одна з яких може бути розв’язана симплексметодом. На підставі знайденого розв’язку однієї задачі та використовуючи теореми двоїстості, можна знайти розв’язок другої задачі. Інші способи розв’язку матричної гри (графічний метод, метод виключення домінованих стратегій, ітеративний метод Брауна-Робінсона, тощо) носять допоміжний характер. У випадку біматричної гри ситуація рівноваги за Нешем обчислюється за допомогою різних лінійних методів, в основі яких є задача лінійного програмування. Найбільш відомим є алгоритм Лемке-Хаусона. Нехай матриці А та В мають розмірність m×n. Будемо розглядати невироджені біматричні ігри (A,B), де А, В – матриці виграшів першого та другого гравців відповідно. Біматрична гра (A,B) називається невиродженою, якщо для кожної вихідної стратегії першого (другого) гравця кількість чистих стратегій, що є найкращою відповідю другого (першого) гравця, не перевищує кількості стратегій з спектру вихідної стратегії першого (другого) гравця. Розглянемо застосування алгоритма Лемке – Хаусона на прикладах. Приклад 1 75  0 6 1 0     A   2 5 B   0 2  3 3  4 3     В даній біматричній грі у гравців немає домінованих стратегій. Але в даній грі є 6 чистих стратегій, одна з яких задовольняє умові рівноваги за Нешем. Це стратегія (x*,y*)=((0,0,1),(1,0)) € X×Y; f(x*,y*)=(3,4). Покажемо, що у даній грі існують і інші точки рівноваги. Проведемо міркування з точки зору першого гравця. Множину його мішаних стратегій позначимо X={(x1,x2,1-x1-x2) € R3| x1,x2 € [0;1], x1+x2 ≤ 1} Ця множина є фундаментальним симплексом в R3. Кожній мішаній стратегії першого гравця поставимо у відповідність вибрані чисті стратегії першого та другого гравців за таким правилом. По-перше, поставимо у відповідність чисті стратегії першого гравця, які не входять в цю стратегію (точніше, входять з ймовірністю 0), по-друге, чисті стратегії другого гравця, які є найкращими відповідями на дану стратегію першого. Чисті стратегії першого гравця, які відповідають вибору 1-го,2-го та 3го рядків, будемо позначати 1, 2, 3 а чисті стратегії 2-го гравця, які відповідають вибору 1-го та 2-го стовпчиків, позначимо 4 та 5. Оскільки біматрична гра є невиродженою, то кожній мішаній стратегії першого гравця буде відповідати не більш, ніж три стратегії (1-го та 2-го гравців). Для знаходження найкращих відповідей першого гравця розглянемо його варіанти вибору в залежності від мішаної стратегії першого. 1 0   x T B  ( x1 , x2 ,1  x1  x2 )   0 2   (4  3x1  4 x2 ,3  3x1  x2 )  4 3   Визначимо ті стратегії першого гравця, на які другий гравець відповідає першою чистою стратегією (яку позначено 4). В цьому випадку 4  3x1  4 x2  3  3x1  x2 і отже x2≤1/3. Для стратегій першого гравця, що задовольняють умові x2≥1/3 другий гравець відповідатиме 2-ю чистою стратегією (яку позначено 5). Зрозуміло, що при x2=1/3 другий гравець може відповідати і 4-ю, і 5-ю стратегією. Виділимо ті стратегії першого гравця, яким за встановленим вище правилом відповідає три чисті стратегії. Ці стратегії слід шукати серед чистих стратегії першого гравця (таким стратегіям буде відповідати дві чисті стратегії першого гравця та одна стратегія другого) або серед таких мішаних стратегій, для яких x2=1/3 та (x1=0 або x1+x2=1) (таким стратегіям буде відповідати одна чиста стратегія першого гравця та дві стратегії другого). X1=(1,0,0)→(2,3,4) ; X2=(0,1,0)→(1,3,5) ; X3=(0,0,1)→(1,2,4) ; X4=(2/3,1/3,0)→(3,4,5) ; X5=(0,1/3,2/3)→(1,4,5). 76 Проведемо аналогічні міркування з боку другого гравця. Множину його мішаних стратегій позначимо Y={(y1,1-y1) € R2| y1 € [0;1]} Ця множина є фундаментальним симплексом (відрізком) в просторі R2. Аналогічно розглянутого випадку з першим гравцем, кожній мішаній стратегії другого гравця поставимо у відповідність вибрані чисті стратегії другого та першого гравців за наступним правилом. По-перше, поставимо у відповідність чисті стратегії другого гравця, які не входять в цю стратегію (точніше, входять з ймовірністю 0), по-друге, чисті стратегії першого гравця, які є найкращими відповідями на дану стратегію другого. Оскільки біматрична гра є невиродженою, то кожній мішаній стратегії другого гравця буде відповідати не більш, ніж дві чисті стратегії (першого та другого гравців). Для знаходження найкращих чистих відповідей першого гравця розглянемо його варіанти вибору в залежності від стратегії першого гравця.  0 6    y    (6  6 y,5  3 y,3) Ay   2 5     3 3  1  y    Перший гравець вибирає свою чисту стратегію з трьох наведених з метою отримання максимального виграшу. Цей виграш визначається функціями f1(y)=6-6y, f2(y)=5-3y, f3(y)=3 . Перша стратегія буде найкращою відповідю першого гравця за умови f1(y)≥f2(y), f1(y)≥f3(y), тобто y € [0, 1/3]. Друга стратегія буде найкращою відповідю першого гравця за умови f2(y)≥f1(y), f2(y)≥f1(y), тобто y € [1/3, 2/3]. Третя стратегія буде найкращою відповідю першого гравця за умови f3(y)≥f2(y), f3(y)≥f1(y), тобто y € [2/3, 1]. Розглянемо граничні точки. При y=1/3 найкращими відповідями для першого гравця будуть одночасно перша та друга стратегії, а при y=2/3 – одночасно друга та третя. Виділимо ті стратегії другого гравця, яким відповідають дві чисті стратегії. Такі стратегії слід шукати серед чистих стратегій (таким стратегіям буде відповідати одна стратегія другого гравця та одна стратегія першого) або серед таких мішаних стратегій, для яких y=1/3 або y=2/3. Y1=(1,0)→(3,5), Y2=(0,1)→(1,4), Y3=(1/3,2/3)→(1,2), Y4=(2/3,1/3)→(2,3). Розглянемо ситуації, складені з виділених стратегій першого та другого гравців. Кожній з них буде відповідати набір чистих стратегій, як об’єднання відповідних наборів чистих стратегій гравців для цієї ситуації. Тоді ситуація буде рівновагою за Нешем тоді і тільки тоді, коли їй буде відповідати повний набір всіх чистих стратегій у грі. Дійсно, в такій ситуації кожна чиста стратегія або не використовується в рівновазі, або є найкращою чистою відповідю на вибір іншого гравця. Така ситуація і є рівновагою за Нешем. 77 В даній грі було виділено п’ять стратегій першого та чотири стратегії другого гравця. Серед 20 можливих ситуацій лише три пари містять повний набір стратегій і отже підходять під умову рівноваги за Нешем. Дійсно, (X3,Y1)=((0,0,1),(1,0))→ ((1,2,4),(3,5)). f(X3,Y1)=(( X3 T ∙A∙Y1),( X3 T ∙B∙Y1))=(3,4). (X5,Y4)=((0,1/3,2/3),(2/3,1/3))→ ((1,4,5),(2,3)). f(X5,Y4)=(( X5 T ∙A∙Y4),( X5 T ∙B∙Y4))=(3,8/3). (X4,Y3)=((2/3,1/3,0),(1/3,2/3))→ ((3,4,5),(1,2)). f(X4,Y3)=(( X4 T ∙A∙Y3),( X4 T ∙B∙Y3))=(4,2/3). Таким чином, розглянутий приклад містить три рівноваги за Нешем, одну в чистих та дві в мішаних стратегіях. Приклад 2  6 0 2 6 0 7     A   0 4 3 , B   0 4 0  7 0 0  2 3 0     В даній грі у гравців немає домінованих стратегій. Тут є 9 ситуацій в чистих стратегіях і одна з них задовольняє умові рівноваги за Нешем, а саме (x*,y*)=((0,1,0),(0,1,0)), f(x*,y*)=(4,4). Знайдемо інші точки рівноваги за Нешем за допомогою алгоритму Лемке-Хаусона. Помітимо, що в даній задачі матриця B є транспонованою, щодо А, T A =B. В такій грі ситуації рівноваги складаються з одинакових стратегій першого та другого гравців. Тому розглянемо гру з позиції першого гравця, для другого гравця міркування будуть аналогічними. Аналогічно попередньому прикладу, кожній мішаній стратегії першого гравця поставимо у відповідність вибрані мішані стратегії першого та другого гравців. Чисті стратегії першого гравця, які відповідають вибору 1го,2-го та 3-го рядків, будемо позначати 1, 2, 3 а чисті стратегії 2-го гравця, які відповідають вибору 1-го, 2-го та 3-го стовпчиків, позначимо 4, 5 та 6. Оскільки біматрична гра є невиродженою, то кожній мішаній стратегії першого гравця буде відповідати не більш, ніж три чисті стратегії (першого та другого гравців). Розглянемо варіанти вибору другого гравця в залежності від мішаної стратегії першого. 6 0 7   x B  ( x1 , x2 ,1  x1  x2 )   0 4 0   (2  4 x1  2 x2 ,3  3x1  x2 ,7 x1 ).  2 3 0   T 78 Кожна стратегія першого гравця однозначно відповідає парі параметрів (x1,x2) € R2, xi≥0, i=1,2, x1+x2≤1. Для знаходження найкращих відповідей другого гравця розглянемо функції f1=2+4x1-2x2, f2=3-3x1+x2, f3=7x1. Умови та результати перетворень наведемо в наступній таблиці 4 f1≥f2, f1≥f3 7x1-3x2≥1 3x1+2x2≤2 Вибір другого гравця 5 f2≥f1, f2≥f3 7x1-3x2≤1 10x1-x2≤3 6 f3≥f1, f3≥f2 3x1+2x2≥2 10x1-x2≥3 Спочатку розглянемо три чисті стратегії першого гравця та для кожної стратегії за таблицею знайдемо найкращу відповідь другого гравця. X1=(1,0,0)→(2,3,6) ; X2=(0,1,0)→(1,3,5) ; X3=(0,0,1)→(1,2,5). Далі перевіримо, чи існують такі стратегії першого гравця, в яких одна з компонент дорівнює нулю і одночасно дві стратегії другого гравця є найкращою відповідю на неї. Нехай x1=0, тоді f1=2-2x2, f2=3+x2, f3=0. Для будь-яких значень x2 € [0, 1] f2>f1,f2>f3 – не підходить. Нехай x2=0, тоді f1=2+4x1, f2=3-3x1, f3=7x1. Прирівнявши f1=f2 знаходимо: x1=1/7, тоді f1=f2=18/7 > f3=1. Отже, знайдено стратегію X4=(1/7,0,6/7)→(2,4,5). Прирівнявши f1=f3 знаходимо: x1=2/3, тоді f1=f3=14/3 > f2=1. Отже, знайдено стратегію X5=(2/3,0,1/3)→(2,4,6). Прирівнявши f2=f3 знаходимо: x1=3/10, тоді f2=f3=21/10 < f1=32/10. Отже, не підходить. Нехай x1+ x2 = 1, тоді f1=6x1, f2=4-4x1, f3=7x1. Оскільки f3>f1, то достатньо лише розглянути випадок f2=f3. x1=4/11, X6=(4/11,7/11,0)→(3,5,6). Дослідимо, чи можуть для другого гравця всі три чисті стратегії бути найкращими відповідями одночасно. Для цього треба розв’язати систему двох рівнянь з двома невідомими f1=f2, f1=f3 та перевірити, чи належить розв’язок системи області допустимих значень. Це дійсно так, система  7 x1  3x 2  1  3x1  2 x 2  2 має розв’язок x1=8/23, x2=11/23, отже X7=(8/23, 11/23, 4/23)→(4,5,6). Оскільки, як було зазначено вище, платіжні матриці А та В задовольняють співвідношенню AT=B, то шуканий набір стратегій Yi буде такий самий, як і знайдений набір Xi, i=1,7. Щодо відповідного набору відповідних чистих стратегій, то тут треба зробити заміну 1↔4, 2↔5 та 3↔6, наприклад X5=(2/3,0,1/3)→(2,4,6) відповідає Y5=(2/3,0,1/3)→(5,1,3) або точніше (1,3,5). Всі знайдені Xi та відповідні їм Yi наведено в наступній таблиці. 79 X1=(1,0,0)→(2,3,6) X2=(0,1,0)→(1,3,5) X3=(0,0,1)→(1,2,5) X4=(1/7,0,6/7)→(2,4,5) X5=(2/3,0,1/3)→(2,4,6) X6=(4/11,7/11,0)→(3,5,6) X7=(8/23, 11/23, 4/23)→(4,5,6) Y1=(1,0,0)→(1,5,6) Y2=(0,1,0)→(2,4,6) X3=(0,0,1)→(2,4,5) X4=(1/7,0,6/7)→(1,2,5) X5=(2/3,0,1/3)→(1,3,5) X6=(4/11,7/11,0)→(2,3,6) X7=(8/23, 11/23, 4/23)→(1,2,3) Співставляючи знайдені пари розв’язків, знаходимо точки рівноваги за Нешем. (x*,y*)=((0,1,0),(0,1,0)) →(1,3,5),(2,4,6) . f(x*,y*)=( x*TAy*, x*TBy*)=(4,4). (x×,y×)=((2/3,0,1/3),(2/3,0,1/3)) →(2,4,6),(1,3,5) . f(x×,y×)=( x×TAy×, x×TBy×)=(14/3,14/3). (x#,y#)=(=(8/23, 11/23, 4/23),(8/23, 11/23, 4/23)) →(4,5,6),(1,2,3) . f(x#,y#)=( x#TAy#, x#TBy#)=(2 10/23, 2 10/23). Таким чином, в розглянутому прикладі є три точки рівноваги, одна в чистих та дві в мішаних стратегіях. В наступному прикладі покажемо, як в процесі застосування алгоритму виявляються та виключаються неефективні стратегії. Приклад 3  3 8  1  1 3 4     A   4 0 2 , B   2 1 8  1 2 3   2 3 0     В даній грі у гравців немає домінованих стратегій. Розглянемо варіанти вибору другого гравця в залежності від мішаної стратегії першого.  1 3 4   x B  ( x1 , x2 ,1  x1  x2 )   2 1 8   (2  x1 ,3  2 x2 ,4 x1  8 x2 ).  2 3 0   T Позначимо f1=2-x1, f2=3-2x2, f3=4x1+8x2. Виявляється, що область, що задає умову того, що перша стратегія другого гравця є найкращою відповідю, а саме f1≥f2, f1≥f3 , xi≥0, i=1,2, x1+x2≤1 є порожньою. Це означає, що дана стратегія входить у всі рівноваги за Нешем з нульовою ймовірністю (це можна було б помітити, наприклад, так: B<1> <3/4 B<2>+1/4 B<3>). Беручи до уваги, що y1=0, умови того, що 2-га (3-тя) стратегії другого гравця є найкращими відповідями мають вигляд , f2≥f3 , xi≥0, i=1,2, x1+x2≤1 та 80 f3≥f2 , xi≥0, i=1,2, x1+x2≤1 відповідно. Отже, за умови 4x1+10x2≤3 найкращою відповідю другого гравця буде 2-га стратегія, а за умови 4x1+10x2≥3 – 3-тя. Аналогічно попереднім прикладам, розгленемо набори стратегій першого та другого гравців, які відповідають чистим стратегіям першого гравця. (1,0,0)→(2,3,6), (0,1,0)→(1,3,6), (0,0,1)→(1,2,5). Далі перевіримо, чи існують такі стратегії першого гравця, в яких одна з компонент дорівнює нулю (a) і одночасно дві стратегії другого гравця є найкращою відповідю на неї (b). Оскільки, як було встановлено вище, 1-ша стратегія другого гравця є домінованою, умова (b) набуває вигляду f2=f3, тобто 4x1+10x2=3. Щоб до того ж задовольнити умову (a), по черзі розглянемо випадки x1=0, x2=0, x1+x2=1. Система рівнянь  3 7 x1  0   0; ;   1,5,6  10 10  3 1 x 2  0   ;0;   2,5,6  4 4 4 x1  10 x 2  3 має розв’язок  x  x  1 2  1 з відємними компонентами, отже розв’язку немає. Розглянемо, при яких значеннях yi відповідні рядки першого гравця будуть найкращими відповідями. Покладемо y1=0 (як було встановлено, 1-й стовпець не входить в оптимальну стратегію другого гравця) тоді множина допустимих стратегій другого гравця матиме вигляд y=(0;y2;1-y2), тоді AyT=(9y2-1, 2-2y2, 3-y2). Відзначимо, що 3-y2>2-2y2, отже, 2-га стратегія першого гравця є домінованою і не може бути найкращою відповідю. Найкращою відповідю може бути 1-ша або 2-га стратегія і умова має вигляд 9y2-1 ≥3-y2 або 9y2-1 ≤3-y2 відповідно, тобто y2≥2/5 або y2 ≤2/5. Розглянемо окремо випадки: y2=0 – кращою відповідю першого гравця є 3-тя стратегія, отже (0,0,1)→(3,4,5). y2=1 – кращою відповідю першого гравця є 1-ша стратегія, отже (0,1,0)→(1,3,4). y2=2/5 – кращими відповідями першого гравця є 1-ша та 3-тя стратегія, отже (0,2/5 ,3/5)→(1,3,4). Співставляючи набори стратегій першого та другого гравців, маємо, що тільки єдина пара стратегій утворює повний набір, отже, маємо єдину точку рівноваги за Нешем: x=(3/4,0,1/4), y=(0,2/5,3/5), f=(13/5,3). В наступному прикладі покажемо, як знайти множину точок рівноваги за Нешем у випадку, якщо їх виявляється безліч. Приклад 4 Розглянемо модель конкуренції двох виробників за ринок збуту (дуополію), яка відбувається за наступними правилами. Нехай дві фірми81 виробники (будемо надалі називатиїх гравцями) змагаються за ринок збуту протягом n=3 років. На початку періоду гравці можуть випускати однорідний товар майже однакової якості і таким чином поділити ринок збуту навпіл. Кожний гравець має три можливі стратегії: 1) Почати випуск товару одразу. 2) Вести науково-технічні розробки, щодо вдосконалення якості товару і почати випуск товару через рік. 3) Те ж саме, через два роки. Фунція виграшу гравців вимірюється у “ринко-роках”, тобто скільки років гравець володів повним ринком. Наприклад, якщо обидва гравці починають випуск товару з самого початку, то вони ділять між собою ринок протягом трьох років і таким чином виграш кожного складає 3/2. Якщо ж наприклад, виробництво було розпочато неодночасно (наприклад, перший гравець почав виробництво спочатку (стратегія 1), а другий через рік (стратегія 2), то перший володів ринком протягом року, але через рік другий випустив продукцію, з якою перший конкурувати вже невзмозі і таким чином другий гравець монопольно володіє ринком протягом двох наступних років. Тоді маємо біматричну гру, в якій функції виграшу гравців описуються наступними матрицями. Помітимо, що оскільки ігрова ситуація для граців є симетричною, то B=AT. 3/ 2 1 2  3/ 2 2 1      A   2 1 1  B   1 1 1 .  1 1 1/ 2  2 1 1/ 2     Дана гра має три точки рівноваги за Нешем у чистих стратегіях, а саме (1,2), f(1,2)=(2,1); (2,1), f(2,1)=(1,2); (2,2), f(2,2)=(1,1). Дослідимо точки рівноваги у мішаних стратегіях. Розглянемо варіанти вибору другого гравця в залежності від мішаної стратегії першого. 3/ 2 1 2    1 1 1 1 x B  ( x1 , x2 ,1  x1  x2 )   2 1 1   ( x1  x2  2, x1  1, x1  x2  ). 2 2 2 2  1 1 1/ 2    T 1 2 1 2 1 2 1 2 Позначимо f1 ( x)   x1  x2  2, f 2 ( x)  x1  1, f 3 ( x)  x1  x2  . Помітимо, що нерівність f 2  f 3 виконується для всіх значень змінних x1 , x 2 , причому тільки при x1  0, x 2  1 нерівність перетворюється на рівність (цей випадок дослідимо окремо при розгляді чистих стратегій першого гравця), у всіх інших випадках має місце строга нерівність. Будемо дотримуватись нумерації стратегій, аналогічній попереднім прикладам. Спочатку розглянемо три чисті стратегії першого гравця та для кожної стратегії знайдемо найкращу відповідь другого гравця. X1=(1,0,0)→(2,3,5) ; X2=(0,1,0)→(1,3,4,5,6) ; X3=(0,0,1)→(1,2,4). 82 Для чистої стратегії першого гравця (0,1,0) всі три стратегії другого є найкращими відповідями. Щоб знайти відповідну множину рівноваг за Нешем, треба знайти множину стратегій другого гравця, для яких стратегія (0,1,0) першого гравця була б найкращою відповідю. Враховуючи симетричність задачі та вже згадану нерівність f 2  f 3 така множина описується нерівністю 1 3 y1  y 2  1 , отже, з врахуванням f 2 ( y)  f 3 ( y) , тобто y1  1   y1  y 2  2  2 2 обмеження y1  0, y 2  0, y1  y 2  1 шукана множина стратегій в координатах ( y1 , y 2 ) буде належати трикутнику з вершинами A(2/3,0), B(1,0), C(0,1) і отже в координатах ( y1 , y2 , y3 ) цю множину можна описати параметрично 1   1 1     ,  ,  , де   0,   0,     1. При цьому функція виграшу дорівнює 3   3  1   1  1  f  0,1,0, 1     ,  ,      2     ,1 . Виграш другого гравця не залежить 3   3  3   від параметрів α,β, а виграш першого гравця набуває мінімального значення при α=0, β=1 та максимального значення при α=0, β=0 (це вказані вище точки рівноваги в чистих стратегіях (2,2) та (2,1) відповідно). Зрозуміло, що оскільки задача симетрична, то точки  1  1   1     ,  ,  , 0,1,0 також будуть точками рівноваги. 3   3  Решта випадків знаходиться як для звичайної задачі. Дослідимо випадки, коли одночасно дві стратегії другого гравця є найкращими відповідями, для цього достатньо розглянути рівність f1 ( x)  f 2 ( x) , звідси 3 x1  x2  1 . Треба знайти стратегії першого гравця, для 2 яких справедлива дана рівність і одночасно одна з компонент дорівнює нулю. Нехай x1  0 , тоді x2  1 - це стратегія (0,1,0), розглянута вище. Нехай 2 . Отже, X4=(2/3,0,1/3)→(2,4,5). 3 x1  x2  1 , тоді x1  0, x2  1 , тобто x2  0 , тоді x1  Нехай знову приходимо до розглянутого вище випадку (0,1,0). Співставимо стратегії першого та другого гравців, відмінні від (0,1,0). Оскільки, як було зазначено вище, платіжні матриці А та В задовольняють співвідношенню AT=B, то шуканий набір стратегій Yi буде такий самий, як і знайдений набір Xi, i=1,4. Щодо відповідного набору відповідних чистих стратегій, то тут треба зробити заміну 1↔4, 2↔5 та 3↔6. Всі знайдені Xi та відповідні їм Yi наведено в наступній таблиці. X1=(1,0,0)→(2,3,5) X3=(0,0,1)→(1,2,4) X4=(2/3,0,1/3)→(2,4,5) Y1=(1,0,0)→(2,4,6) Y2=(0,0,1)→(1,4,5) X3=(0,0,1)→(1,2,5) 83 Немає жодної пари (X,Y), якій відповідав би повний набір стратегій, отже, немає жодної точки рівноваги, крім описаних вище параметричних сімейств. Читачеві пропонується самостійно розглянути дану задачу для випадку n=4. Тут можна помітити, що 4-й рядок строго мажорується напівсумою 1-го та 2-го і отже, має бути виключений. Задачу можна також узагальнити таким чином. Нехай один з гравців, що почав випуск продукції раніше в момент виходу на ринок конкурента не втрачає збут на ринку повністю, а зберігає деяку частку контролю ринку 0    1 1 (при   задача стає нецікавою, 2 2 оскільки має тривіальний розв’язок (1,1)). Модель дуополії за Курно Припустимо, що дві фірми i=1,2 виробляють однорідний продукт та q1, q2 – обсяги виробництва цього продукту. Нехай обернена функція попиту (або ринкова ціна, яка відповідає даному обсягу виробництва) має вигляд (у спрощеному вигляді) P(Q)=a-Q, де Q=q1+q2 (точніше, P(Q)=a-Q при Q<a та P(Q)=0 при Q≥a). Функції витрат мають вигляд Сi(q)=cqi, i=1,2 (немає фіксованих витрат та витрати пропорційні обсягам виробництва). Нехай фірми вибирають qi одночасно та незалежно. В даному випадку є два гравці, і множини їхніх стратегій мають вигляд Xi=[0;+∞) (а насправді обсяг жодної з фірм не перевищуватиме a). Фірми прагнуть максимізувати свої функції прибутку, які залежать від власного обсягу виробництва та обсягу виробництва конкурента: f1(q1,q2)=q1(P(q1+q2)-c) = q1(a-( q1+q2)-c) f2(q1,q2)=q2(P(q1+q2)-c) = q2(a-( q1+q2)-c) Знайдемо точку рівноваги за Нешем у даній грі. Припустимо, що qi<a-c. Розглянемо f1(q1,q2) як квадратний тричлен від q1: f1=-q12+(a-c+q2)q1. f1 набуває максимального значення при q1=(a-c+q2)/2, тобто дане значення є найкращою відповідю першого гравця на стратегію другого гравця q2: BR1(q2)= (a-c+q2)/2. Оскільки задача є симетричною, то найкраща відповідь другого гравця має вигляд: BR2(q1)= (a-c+q1)/2. Отже, точка рівноваги за Нешем задовольнятиме системі рівнянь:    * 1 * q1  2 a  q 2  c  1 q 2*  a  q1*  c 2    Розвязок системи рівнянь матиме вигляд q1*  q 2*  ac 3 ( a  c ) При цьому прибутки гравців дорівнюють ac  2  a  c  f1 (q1 , q 2 )  f 2 (q1 , q 2 )  a  c  a  c    3  3 9  2 84 Відзначимо, що оптимальний монопольний випуск дорівнював би ac , 2 тобто у випадку корпоративної поведінки на одного учасника в середньому приходився би прибуток 2 1 ac ac ac   ( a  c) . f1  , a  c  a  c    4  4  2 8  4  Розглянемо графіки функцій найкращих відповідей BR1(q2)= (a-c+q2)/2 та BR2(q1)= (a-c+q1)/2 в одній системі координат. Точка їхнього перетину відповідає точці рівноваги за Курно (тобто рівноваги за Нешем в моделі дуополії за Курно). Рівновага за Нешем в дуополії за Курно як результат навчання Припустимо тепер, що гравці прагнуть передбачити гру своїх опонентів, так би мовити використовуючи свій попередній досвід. При цьому гравці по черзі вибирають обсяги випуску як найкращу відповідь, виходячи з вибору опонента на попередньому кроці за припущення, що опонент на наступному кроці залишить свій обсяг випуску без змін. Взагалі даний процес можна розглядати іншим чином, без чергування кроків, коли кожен гравець вибирає обсяг випуску як відповідь на попередній вибір опонента. Якщо в результаті даної послідовності дій процес збігається до деякого стану (q1,q2), то стан (q1,q2) називається асимптотично стійким, а сам ітеративний процес називається процедурою намацювання за Курно. На наступному малюнку показано по одному кроку кожного з гравців. 85 Дослідження умов збіжності даної процедури є складним і виходить за рамки даного посібника. Наведемо тут без доведення одну з достатніх умов збіжності. d BR1 d BR 2  1 . d q2 d q1 Якщо узагальнити задачу та розглянути випадок конкуренції n виробників (такий випадок називається олігополією), то тоді функція найкращої відповіді і-го гравця матиме вигляд f i (q1 ,..., qn )  qi ((a  c)  (q1  ...  qn )) . Ця функція набуває максимуму в точці qi  (a  c)  (q1  ...  qi 1  qi 1  ...  q n ) 2 Пошук точки рівноваги зводиться до розвязку системи n лінійних рівнянь з n ac . Нагадаємо, що оптимальний n 1 ac монопольний випуск дорівнював би і отже у випадку корпоративних 2 ac дій і “справедливого” розподілу ринку кожен виробник виробляв би . 2n невідомими і розвязок має вигляд qi*  Але така “справедлива та взаємовигідна” угода не є точкою рівноваги і кожен гравець має спокусу порушити її та збільшити власний обсяг виробництва. Таким чином, при великому n конкуренція примушує виробників виробляти товару майже вдвічі більше, ніж у випадку корпоративного узгодження. Розглянемо іншу модель олігополії. Нехай є виробники, які виробляють та пропонують для продажу однорідний товар у обсягах x1, x2,…,xn відповідно. Нехай витрати виробництва значно менше ринкової ціни (отже, їх можна не враховувати), а ціна одиниці продукції спадає з ростом сумарного обсягу виробництва за експоненційним законом, тобто S ( x1 , x2 ,..., xn )  e ( x1.. xn ) , тоді прибуток і-го виробника дорівнює Fi (x) Fi(x1, x2,…,xn)=xi exp(-(x1+x2+…+xn)). Розглянемо, наприклад, першого виробника. Його функцію прибутку можна представити у вигляді 86 F1(x1, x2,…,xn)=x1exp(-x1) exp(-(x2+…+xn)). Вираз x1exp(-x1) досягає максимуму при x1=1, а вираз exp(-(x2+…+xn) не залежить від x1. Таким чином, стратегія xі=1 є домінуючою для першого виробника (оскільки він отримує максимальний прибуток при будь-яких фіксованих значеннях x2,…,xn. Ці міркування є справедливими для будь-якого виробника, таким чином, якщо обсяги виробництва встановлюються кожним виробником окремо, без координації з іншими виробниками, то всі xі=1, при цьому всі виробники одержують прибуток exp(-n). З цього випливає, що дана ситуація є єдиною точкою рівноваги за Нешем Разом з цим ця точка домінується за Парето точкою (1/n,,,,,1/n) (у цьому випадку кожен виробник одержує прибуток exp(-1)/n > exp(-n) ). Множину всіх точок, оптимальних за Парето це множина точок (x1, x2,…,xn), таких, що xi≥0 та n x i 1 n x i i  1 . Дійсно, при 1 досягається максимальний сумарний прибуток, який дорівнює exp(1), а за рахунок вибору xi цей прибуток можна розподілити між виробниками i 1 n будь-яким чином. Якщо ж Парето точкою x i 1 i 1 , то точка (x1, x2,…,xn) домінується за (y1, y2,…,yn), де yi  xi x i 1 кожен виробник отримує більший прибуток). 87 (легко показати, що при цьому n i Література. 1. Шикин Е.В. От игр к играм: Математическое введение Изд. 6, стереот. URSS. 2015. 120 с. 2. Л.А. Петросян, Н.А.Зенкевич. Теория игр. Санкт-Петербург, изд-во “БХВ-Петербург”, 2012. 432 с. 3. Г.В.Колесник. Теория игр с приложениями к моделированию экономических систем. URSS. 2017. 256 с. 4. Вильямс Дж.Д. Совершенный стратег, или Букварь по теории стратегических игр. Пер. с англ. № 18. Изд. 2 URSS. 2009. 272 с. 5. В.В. Мазалов. Математическая теория игр и ее приложения. СанктПетербург, изд-во “Лань”, 2010 г. 448 с. 6. П.В. Конюховский, А.С.Малова. Теория игр. Москва, изд-во “Юрайт”, 2013, 232 с. 88

Математичні методи дослідження операцій: Курс лекцій

Related documents

Products

Support

Математичні методи дослідження операцій: Курс лекцій

Related documents

Add this document to collection(s)

Add this document to saved

Suggest us how to improve StudyLib