EX2: Thăm dò với Models Exemplar Deep Học tăng cường Justin Fu John D. Co-Reyes Sergey Levine Đại học California Berkeley {justinfu, jcoreyes, svlevine} @ eecs.berkeley.edu trừu tượng thuật toán học sâu cốt đã được chứng minh để học hỏi các nhiệm vụ phức tạp sử dụng các lớp học chính sách cao nói chung. Tuy nhiên, vấn đề thưởng thưa thớt vẫn là một thách thức đáng kể. phương pháp thăm dò dựa trên sự phát hiện mới lạ đã đặc biệt thành công trong môi trường như vậy nhưng thường đòi hỏi mô hình generative hoặc tiên đoán của các quan sát, có thể là khó khăn để đào tạo khi các quan sát là rất cao chiều và phức tạp, như trong trường hợp các hình ảnh thô. Chúng tôi đề xuất một thuật toán phát hiện mới lạ để khám phá đó là dựa mô hình mẫu mực hoàn toàn vào đào tạo discriminatively, nơi phân loại được đào tạo để phân biệt mỗi tiểu bang thăm chống lại tất cả những người khác. Bằng trực giác, các quốc gia mới được dễ dàng hơn để phân biệt chống lại các tiểu bang khác nhìn thấy trong đào tạo. 1. Giới thiệu nghiên cứu gần đây đã chỉ ra rằng phương pháp kết hợp tăng cường học tập với giàu chức năng approximators, chẳng hạn như các mạng thần kinh sâu, có thể giải quyết một loạt các nhiệm vụ phức tạp, từ chơi trò chơi Atari (Mnih et al., 2015) để kiểm soát robot mô phỏng (Schulman et al., 2015). Mặc dù phương pháp học tăng cường sâu cho phép cơ quan đại diện chính sách phức tạp, họ không tự giải quyết vấn đề thăm dò: khi các tín hiệu phần thưởng là rất hiếm và thưa thớt, các phương pháp như vậy có thể gặp khó khăn để có được những chính sách có ý nghĩa. chiến lược thăm dò tiêu chuẩn, chẳng hạn như chiến lược -greedy (Mnih et al., 2015) hoặc tiếng ồn Gaussian (Lillicrap et al., 2015), là vô hướng và không dứt khoát tìm ra trạng thái thú vị. Một con đường đầy hứa hẹn để thăm dò đạo hơn là để ước tính một cách rõ ràng sự mới lạ của một quốc gia, sử dụng mô hình dự báo tạo ra trạng thái trong tương lai (Schmidhuber, 1990; Stadie et al, 2015;. Achiam & Sastry, 2017) hoặc mật độ trạng thái mô hình (Bellemare et al, 2016;. Tang et al, 2017;.. Abel et al 2016 ). khái niệm liên quan như tiền thưởng đếm dựa trên đã được chứng minh để cung cấp speedups phụ stantial trong cốt cổ điển học (Strehl & Littman, 2009; Kolter & Ng, 2009), và một số tác phẩm gần đây đã đề xuất cách tiếp cận thông tin lý thuyết hoặc xác suất để thăm dò dựa trên ý tưởng này (Houthooft et al, 2016;. Chentanez et al, 2005). bằng cách vẽ trên kết quả chính thức trong các hệ thống rời rạc hoặc tuyến tính đơn giản (Bubeck & CESA-Bianchi, 2012). Tuy nhiên, hầu hết các phương pháp ước lượng mới lạ dựa trên việc xây dựng mô hình generative hoặc tiên đoán rằng mô hình một cách rõ ràng sự phân bố trên các quan sát hiện tại hoặc tiếp theo. Khi quan sát rất phức tạp và chiều cao, chẳng hạn như trong trường hợp các hình ảnh thô, các mô hình này có thể khó khăn để đào tạo, kể từ khi tạo ra và dự đoán hình ảnh và các đối tượng chiều cao khác vẫn là một vấn đề mở, bất chấp những tiến bộ gần đây (Salimans et al., 2016). Mặc dù kết quả thành công với mô hình mới lạ sinh sản đã được báo cáo với hình ảnh tổng hợp đơn giản, chẳng hạn như trong các trò chơi Atari (Bellemare et al, 2016;.. Tang et al, 2017), chúng tôi hiển thị trong của chúng tôi đóng góp bằng nhau. thí nghiệm phương pháp sinh sản như đấu tranh với các quan sát phức tạp hơn và tự nhiên, chẳng hạn như các quan sát hình ảnh cái tôi làm trung tâm trong benchmark vizDoom. Làm thế nào chúng ta có thể ước tính sự mới lạ của các quốc gia được du khách thăm quan, do đó cung cấp tín hiệu động lực nội tại để học tăng cường, mà không xây dựng một cách rõ ràng các mô hình dự đoán hoặc tiên đoán của nhà nước hay sự quan sát? Ý tưởng chính trong thuật toán EX2 của chúng tôi là ước tính các điểm mới bằng cách xem xét sự phân loại được phân biệt dễ dàng như thế nào để phân biệt một trạng thái mới từ các trạng thái khác được xem trước đây. Có thể hiểu là, nếu một trạng thái dễ phân biệt với các trạng thái khác, nó có thể là cái mới. Ở đây, chúng tôi đề xuất đào tạo các mô hình mẫu cho mỗi tiểu bang phân biệt trạng thái đó với tất cả các trạng thái quan sát khác. Chúng tôi trình bày hai đóng góp kỹ thuật quan trọng mà làm cho phương pháp này có khả năng sử dụng trong thực tế. ( Cái này về kết quả thống kê ) Đầu tiên, chúng tôi mô tả cách thức các mô hình mẫu được phân loại để có thể được sử dụng ước lượng mật độ tiềm ẩn, cho phép chúng tôi thống nhất thống kê này với lý thuyết dựa trên số lượng thăm dò. Thử nghiệm của chúng tôi minh họa rằng, trong các miền đơn giản, mật độ ước tính ngầm cung cấp ước tính tốt về mật độ trạng thái cơ bản mà không có bất kỳ phát sinh nào. (Cái này là nói về sự mới lạ của PP) Thứ hai, chúng tôi chỉ ra cách phân bổ cho các mô hình mẫu để ngăn chặn mấy cái phát sinh khác với số lượng các trạng thái, làm cho phương pháp tiếp cận thực tế và có khả năng mở rộng. Vì phương pháp của chúng tôi không yêu cầu bất kỳ mô hình phát sinh nào, chúng tôi có thể sử dụng nó trên một loạt các tác vụ dựa trên hình ảnh phức tạp, bao gồm trò chơi Atari và điểm chuẩn vizDoom, có hình ảnh 3D phức tạp và chuyển động máy ảnh phong phú do quan điểm egocentric. Kết quả của chúng tôi cho thấy rằng EX2 khớp với hiệu suất của các phương pháp khám phá dựa trên tính mới dựa trên các nhiệm vụ đơn giản hơn, chẳng hạn như các tiêu chí kiểm soát liên tục và Atari, và vượt quá hiệu suất của chúng trên miền vizDoom phức tạp, cho thấy giá trị của ước tính mật độ tiềm ẩn và động lực nội tại. 2 Công việc liên quan Trong MDPs, các thuật toán thăm dò hữu hạn như E3(Kearns & Singh, 2002) và R-max (Brafman & Tennenholtz, 2002) cung cấp đảm bảo tối ưu về lý thuyết. Tuy nhiên, những phương pháp này thường đòi hỏi duy trì đếm thăm viếng nhà nước hành động, có thể làm mở rộng họ với tình trạng chiều và / hoặc liên tục cao rất khó khăn. Khám phá trong không gian trạng thái như vậy đã thường liên quan đến chiến lược như giới thiệu số liệu khoảng cách so với không gian trạng thái; và xấp xỉ số lượng được sử dụng trong phương pháp thăm dò cổ điển (Pazis & Parr 2013 Kakade et al., 2003). công trình trước đã sử dụng ước tính cho số lượng nhà thăm viếng (Tang et al, 2017;. Bellemare et al, 2016;.. Abel et al, 2016), tăng thông tin, hoặc lỗi dự đoán dựa trên mô hình động lực học (Houthooft et al ., 2016;. Stadie et al, 2015; Achiam & Sastry, 2017). Bellemare et al. Các phương pháp khác tránh việc giải quyết vấn đề thăm dò trực tiếp và sử dụng ngẫu nhiên trên các thông số mô hình để khuyến khích hành vi tiểu thuyết (Chapelle & Li, 2011). Ví dụ, bootstrapped DQN (Osband et al., 2016) tránh sự cần thiết để xây dựng một mô hình sinh sản của nhà nước bằng cách thay vì đào tạo các chức năng nhiều, giá trị ngẫu nhiên và thực hiện thăm dò bằng cách lấy mẫu một hàm giá trị, và thực hiện các chính sách tham lam liên quan đến việc chức năng giá trị. Trong khi các phương pháp như mở rộng để không gian trạng thái phức tạp cũng như các thuật toán RL sâu tiêu chuẩn, họ không cung cấp rõ ràng hành vi mới lạ-tìm kiếm, mà là một hành vi thăm dò ngẫu nhiên có cấu trúc hơn. Một hướng khám phá trong công việc trước là để kiểm tra thăm dò trong bối cảnh của các mô hình phân cấp. Một đại lý có thể có những hành động tạm thời mở rộng thể hiện dưới dạng nguyên thủy hành động hoặc các kỹ năng có thể dễ dàng khám phá môi trường (Stolle & Precup, 2002). Thứ bậc tăng cường học tập có truyền thống cố gắng khai thác trừu tượng thời gian (Barto & Mahadevan, 2003) và dựa vào các quá trình ra quyết định Markov bán. Một vài tác phẩm gần đây trong RL sâu đã sử dụng hệ thống phân cấp để khám phá trong môi trường thưởng thưa thớt (Florensa et al, 2017;. Heess et al, 2016.). Tuy nhiên, học một hệ thống phân cấp là khó khăn và có học chương trình đào tạo thường yêu cầu hoặc subgoals thiết kế bằng tay (Kulkarni et al., 2016). Trong tác phẩm này, chúng tôi thảo luận về một chiến lược thăm dò chung mà không phụ thuộc vào thiết kế của chính sách và áp dụng đối với bất kỳ kiến trúc, 2 Đồng thời với tác phẩm này, Pathak et al. (2017) đề xuất sử dụng tiền thưởng thăm dò được đào tạo discriminatively bằng cách học tính năng nhà nước mà được đào tạo để dự đoán hành động từ cặp chuyển trạng thái. Sau đó được đưa ra một trạng thái và hành động, mô hình của họ dự đoán các tính năng của nhà nước tới và tiền thưởng được tính từ lỗi dự đoán. Ngược lại với phương pháp của chúng tôi, công việc đồng thời điều này không cố gắng để cung cấp một mô hình xác suất của sự mới lạ và không thực hiện bất kỳ loại ước lượng mật độ ngầm. Kể từ khi phương pháp của họ biết một mô hình động lực học ngược, nó không cung cấp cho bất kỳ cơ chế để xử lý sự kiện cuốn tiểu thuyết mà không tương quan với hành động của đại lý, mặc dù nó không thành công trong việc tránh sự cần thiết cho mô hình sinh sản. 3 sự dự bị Trong bài báo này, chúng ta xem xét một quá trình quyết định Markov (MDP), được xác định bởi các tuple (S; A; T; R;; 0). S; Một là không gian trạng thái và hành động, tương ứng. T phân phối 0 chuyển tiếp (s ja; s), phân phối trạng thái ban đầu0(S), và chức năng thưởng R (s; a) chưa được biết trong tăng cường học tập (RL) thiết lập và chỉ có thể được truy vấn thông qua tương tác với MDP. Mục tiêu của học tập củng cố-ment là để tìm ra chính sách tối ưu nhằm tối đa hóa tổng QT dự thưởng chiết khấu, = arg max E [ một quỹ đạo (s0; một0; :::ST; mộtT ) t=0 và () = 0 (S 0 ) tt (một js ) T (s PTt = 0 t R (st; mộtt)]; ở đâu, biểu thị t + 1jst ; m ộtt) . thí nghi ệm c ủa c hún g tôi đán h giá nhiệ m vụ nhiề u tậ p với m ột Gradient chính sách thuật toán RL, mặc dù phần mở rộng để thiết lập đường chân trời vô hạn hoặc các thuật toán khác, chẳng hạn như Q-learning và diễn viên-nhà phê bình, là đơn giản. thuật toán thăm dò đếm dựa trên duy trì một số nhà hoạt động thăm viếng N (s; a), và khuyến khích các đại lý đến thăm các quốc gia hiếm thấy, hoạt động trên nguyên tắc của sự lạc quan dưới không chắc chắn. Điều này thường được thực hiện bằng cách thêm một tiền thưởng phần thưởng cho quý khách đến thăm quốc gia hiếm. Ví dụ, MBIE-EB (Strehl p & Littman, 2009) sử dụng một phần thưởng của = N (s; a), mà là một hằng số, và BEB (Kolter & Ng, 2009) sử dụng a = (N (s; a) + JSJ). Trong không gian trạng thái và hành động hữu hạn, những phương pháp này PAC-MDP (ví MBIE-EB) hoặc PAC-BAMDP (ví BEB), xấp xỉ có nghĩa là đại lý hoạt động dưới mức tối ưu cho chỉ có một số đa thức bước. Trong các lĩnh vực mà đếm rõ ràng là không thực tế, giả đếm có thể được sử dụng dựa trên ước tính mật độ p (s; a) (. Bellemare et al, 2016), thường được thực hiện bằng một số loại mô hình ước lượng mật độ đào tạo generatively. Chúng tôi sẽ mô tả cách chúng ta có thể ước tính mật độ sử dụng phân loại chỉ được đào tạo discriminatively, tiếp theo là một cuộc thảo luận về cách ước lượng tiềm ẩn này có thể được kết hợp vào một pseudo-count phương pháp thưởng mới lạ. 4 Các mô hình mẫu mực và Mật độ Ước Chúng tôi bắt đầu bằng việc mô tả mô hình phân biệt đối xử của chúng tôi sử dụng để dự đoán sự mới lạ của các quốc gia truy cập trong đào tạo. Chúng tôi nhấn mạnh một mối liên hệ giữa hình thức đặc biệt của phân biệt mô hình và mật độ ước lượng, và tại Mục 5 mô tả làm thế nào để sử dụng mô hình này để tạo tiền thưởng phần thưởng. 4.1 Các mô hình mẫu mực Để tránh sự cần thiết của mô hình generative rõ ràng, phương pháp ước lượng sự mới lạ của chúng tôi sử dụng mô hình mẫu mực. Với một tập dữ liệu X = fx1; ::: xng, một mô hình mẫu mực bao gồm một tập của n phân loại hoặc discriminators FDx1; :::: Dxng, một cho mỗi điểm dữ liệu. Mỗi phân biệt cá nhân Dxtôi được huấn luyện để phân biệt một đơn dương tính điểm dữ liệu xtôi, Các “mẫu mực”, từ các điểm khác trong tập dữ liệu X. Chúng ta mượn thuật ngữ “mô hình mẫu mực” từ Malisiewicz et al. (2011), trong đó đặt ra thuật ngữ “Bản SVM” để chỉ một mô hình tuyến tính đặc biệt được đào tạo để phân loại từng trường hợp chống lại tất cả những người khác. Tuy nhiên, để kiến thức của chúng tôi, công việc của chúng tôi là người đầu tiên áp dụng ý tưởng này để thăm dò cho học tăng cường. Trong thực tế, chúng tôi tránh sự cần thiết để đào tạo phân loại n riêng biệt bằng cách phân bổ thông qua một mạng mẫu mực lạnh duy nhất, như đã thảo luận trong Phần 6. Hãy PX (X) biểu thị sự phân bố dữ liệu trên X, và để cho Dx(X): X! [0; 1] biểu thị phân biệt gắn liền với khuôn x. Để có được ước tính mật độ đúng, như đã thảo luận trong phần tiếp theo, chúng tôi trình bày từng phân biệt với một tập dữ liệu cân bằng, nơi một nửa trong số các dữ liệu bao gồm các ví dụ điển hình x và một nửa xuất phát từ sự phân bố nền PX(X). sau đó mỗi phân biệt được huấn luyện để mô hình một Bernoulli phân phối Dx(X) = P (x = x jx) thông qua khả năng tối đa. Lưu ý rằng nhãn x = x là ồn ào, vì dữ liệu đó là cực kỳ tương tự hoặc giống hệt nhau để x cũng có thể xảy ra trong việc phân phối nền PX (X), do đó phân loại không phải lúc nào đầu ra 1. Để đạt được 3 giải pháp maximum likelihood, bộ phân biệt được huấn luyện để tối ưu hóa mục tiêu cross-entropy sau Dx = Arg max (E x [log D (x)] + EPX [Đăng nhập 1 D (x)]): (1) D2D Chúng tôi thảo luận về phương pháp khấu hao thực tế rằng tránh sự cần thiết để đào tạo n discriminators tại Mục 6, nhưng để giữ cho nguồn gốc trong phần này đơn giản, chúng ta xem xét discriminators độc lập cho bây giờ. 4.2 Các mô hình mẫu mực như ước tính mật độ Implicit Để hiển thị như thế nào mô hình mẫu mực có thể được sử dụng để ước lượng mật độ ngầm, chúng ta bắt đầu bằng cách xem xét một vô cùng mạnh mẽ, phân biệt tối ưu, mà chúng có thể làm cho một kết nối rõ ràng giữa bộ phân biệt và cơ bản phân phối dữ liệu PX (X): Dự luật 1. (Optimal phân biệt) Đối với một phân phối P rời rạcX (X), bộ phân biệt D tối ưux cho x thỏa mãn mẫu mực Dx (X) = x (X) và Dx (X) = 1 : 1 + PX (X) x (X) + PX (X) Bằng chứng. Các bằng chứng thu được bằng cách lấy đạo hàm của sự mất mát trong phương trình. (1) Đối với D (x) với, đặt nó vào không, và giải quyết cho D (x). Nó sau đó, nếu bộ phân biệt là tối ưu, chúng tôi có thể phục hồi khả năng của một điểm dữ liệu PX (X) bằng cách đánh giá bộ phân biệt tại x ví dụ điển hình của riêng mình, theo Dx (X) 1 (2) : Dx (X) Đối với lĩnh vực liên tục, x(X)! 1, vì vậy D (x)! 1. Điều này có nghĩa chúng tôi không thể phục hồi PX(X) thông qua phương trình. (2). Tuy nhiên, chúng ta có thể mịn vùng đồng bằng bằng cách thêm tiếng ồn q () để x ví dụ điển hình trong đào tạo, cho phép chúng tôi để phục hồi ước tính mật độ chính xác bằng cách giải quyết cho PX(X). Ví dụ, nếu chúng ta để cho q = N (0;2I), sau đó bộ phân biệt tối ưu đánh giá tại x thỏa mãn Dx (X) = P (X) = X h p tôi 1 = 2 2d = h1 =p2 2d tôi. Thậm chí nếu chúng ta không biết phương sai nhiễu, chúng + PX (X) tôi có 1 Dx (X) P (X) X Dx (X) / : (3) tỉ lệ này giữ cho bất kỳ q tiếng ồn càng lâu càng ( xq) (x) (trong đó biểu thị chập) là như nhau cho tất cả các x. Tiền thưởng phần thưởng chúng tôi mô tả tại mục 5 là bất biến để các yếu tố bình thường, vì vậy ước tính tỷ lệ là đủ. Trong thực tế, chúng ta có thể lấy ước tính mật độ đó là phù hợp hơn để thăm dò bằng cách giới thiệu trơn tru-ing, trong đó bao gồm việc thêm tiếng ồn để phân phối của nền PX , Để sản xuất các ước lượng (x Dx (x) = ( x q) (x) q) (x) + (PX q) (x): Sau đó chúng tôi thu hồi ước tính mật độ của chúng tôi như (PXq) (x). Trong trường hợp khi PXlà tập hợp các hàm delta xung quanh các điểm dữ liệu, điều này tương đương với hạt nhân ước tính mật độ sử dụng phân phối của tiếng ồn như một hạt nhân. Với Gaussian q tiếng ồn = N (0;2I), điều này tương đương với việc sử dụng một hạt nhân RBF. 4.3 Không gian tiềm ẩn mượt giống với Discriminators ồn ào Trong phần trước, chúng ta đã thảo luận cách thêm tiếng ồn có thể cung cấp cho các ước tính mật độ Smooth, đó là đặc biệt quan trọng trong không gian phức tạp hoặc liên tục, nơi mà tất cả các quốc gia có thể được Distin-guishable với một phân biệt đủ mạnh. Thật không may, đối với các quốc gia chiều cao, chẳng hạn như hình ảnh, thêm tiếng ồn trực tiếp với nhà nước thường không sản xuất tiểu bang mới có ý nghĩa, vì sự phân bố của các quốc gia nằm trên một đa dạng mỏng, và bất kỳ tiếng ồn được thêm vào sẽ nâng tình trạng ồn ào tắt của đa dạng này . Trong phần này, chúng tôi thảo luận về cách chúng ta có thể học được phân phối làm mịn bằng cách tiêm tiếng ồn vào một không gian tiềm ẩn học, chứ không phải thêm nó vào các trạng thái ban đầu. 4 Chính thức, chúng tôi giới thiệu một biến tiềm ẩn z. Chúng tôi muốn đào tạo một q phân phối encoder (ZJX), và một p tiềm ẩn không gian phân loại (yjz) = D (z)y(1 D (z))1 y, Nơi y = 1 khi x = x và y = 0 khi x 6 = x. Chúng tôi bổ sung quy tắc chia phân phối của tiếng ồn đối với một p phân phối trước (z), trong đó trong trường hợp của chúng tôi là một đơn vị Gaussian. Cho p (x) = 1 2 1 x (X) + pX (X) biểu thị việc đào tạo cân bằng 2 e phân phối từ trước, chúng ta có thể tìm hiểu những không gian tiềm ẩn bằng cách tối đa hóa mục tiêu (4) py z ; QZ x Ep[EqZJ X [l og p ( yjz)] DKL(Q (ZJX) jj p (z))] : max e jj Bằng trực giác, mục tiêu này sẽ tối ưu hóa phân phối của tiếng ồn để phát huy tối đa độ chính xác phân loại trong khi truyền càng ít thông tin thông qua các không gian tiềm ẩn càng tốt. Điều này làm z để chỉ nắm bắt được các yếu tố của sự thay đổi trong x có nhiều thông tin nhất đối với phân biệt điểm từ mẫu mực, dẫn đến tiếng ồn mà vẫn trên đa dạng trạng thái. Ví dụ, trong lĩnh vực Atari, tiềm ẩn tiếng ồn không gian có thể tương ứng với làm mịn trên vị trí của các cầu thủ và di chuyển các đối tượng trên màn hình, trái ngược với biểu diễn pixel khôn ngoan làm mịn Gaussian. xx (X) q (ZJX) dx và q (zjy = 0) = x pX (X) q (ZJX) dx biểu thị Cho q (zjy = 1) = ized tích cực và marginal- mật đ ộ tiê u cực tr ong khô ng gi an tiề m ẩ n, ch úng ta c ó th ể đặc trưn g ph ân bi ệt t ối ưu R R và phân phối encoder như sau. Đối với bất kỳ q encoder (ZJX), tối ưu phân biệt D (z) thỏa mãn: q (zjy = 1) p (y = 1jz) = D (z) = q (zjy = 1) + q (zjy = 0) và đối với bất kỳ phân biệt D (z), sự phân bố encoder đáp ứng tối ưu: q (ZJX) / D (z)ymềm mại(X)(1 nơi ymềm mại(X) = p (y = 1jx) = x (X) x (X) + pX (X) D(z))1 y (X) mềm mại p (z) ; ; là nhãn trung bình của x. Đây có thể được thu được bằng cách phân biệt mục tiêu, và đầy đủ nguồn gốc được bao gồm trong Phụ lục A.1. Bằng trực giác, q (ZJX) bằng với p trước (z) theo mặc định, có thể mang theo không có thông tin về x. Sau đó nó quy mô lên xác suất trên mã tiềm ẩn z nơi bộ phân biệt là tự tin và chính xác. Để khôi phục một ước tính mật độ, chúng tôi ước tính D (x) = Eq[D (z)] và áp dụng phương trình. (3) để có được mật độ. 4.4 Làm mịn từ dưới mức tối ưu Discriminators Trong Mục từ trước của chúng tôi, chúng tôi giả định một, phân biệt tối ưu vô cùng mạnh mẽ mà có thể phát ra một giá trị D khác nhau (x) cho mỗi đầu vào x. Tuy nhiên, đây là thường không thể ngoại trừ lĩnh vực nhỏ, đếm được. Một nguồn tin thứ cấp nhưng quan trọng của mật độ mịn xảy ra khi bộ phân biệt có khó khăn phân biệt hai trạng thái x và x0. Trong trường hợp này, bộ phân biệt sẽ trung bình so với kết quả đầu ra của bộ phân biệt vô cùng mạnh mẽ. Hình thức làm mịn đến từ thiên kiến quy nạp của bộ phân biệt, đó là khó khăn để định lượng. Trong thực tế, chúng ta thường tìm thấy hiệu ứng này có lợi cho mô hình của chúng tôi chứ không phải là có hại. Một ví dụ về ước tính mật độ mịn như được thể hiện trong hình 2. Do hiệu ứng này, thêm tiếng ồn là không thực sự cần thiết để được hưởng lợi từ mịn, mặc dù nó cung cấp để kiểm soát tốt hơn đáng kể so với mức độ mịn. 5 EX2: Thăm dò với Models Exemplar Bây giờ chúng ta có thể mô tả thuật toán thăm dò của chúng tôi dựa trên các mô hình mật độ ngầm. Giả cho một biến thể tìm kiếm chính sách hàng loạt sử dụng mô hình mẫu mực duy nhất được thể hiện trong thuật toán 1. Online biến thể cho các thuật toán RL khác, chẳng hạn như Q-learning, cũng có thể. Để áp dụng những ý tưởng từ thăm dò đếm dựa trên mô tả trong phần 3, chúng ta phải xấp xỉ đếm thăm viếng nhà nước N (s) = NP (s), trong đó P (s) là phân phối qua các quốc gia truy cập trong đào tạo. Lưu ý rằng chúng ta có thể dễ dàng sử dụng nhà nước-action đếm N (s; a), nhưng chúng ta bỏ qua các hành động đơn giản của ký hiệu. Để tạo mẫu xấp xỉ từ P (s), chúng tôi sử dụng một replay đệm B, mà là một (FIFO) hàng đợi đầu tiên trong lần đầu tiên ra rằng giữ trạng thái truy cập trước đó. mẫu mực của chúng tôi là các tiểu bang chúng tôi muốn ghi bàn, đó là những tiểu bang ở hàng loạt hiện hành của quỹ đạo. Căn cứ vào sản lượng từ discriminators đào tạo để tối ưu hóa phương trình (1), chúng tôi làm tăng thêm phần thưởng với một chức năng của “mới lạ” của nhà nước (trong đó là một hyperparameter có thể được điều chỉnh để độ lớn của phần thưởng nhiệm vụ): R0(S; a) = R (s; a) + f (DS(S)): 5 Thuật toán 1 EX2 để tối ưu hóa chính sách hàng loạt 1: Khởi phát lại đệm B 2: cho lặp i trong {1,. . . , N} làm 3: Mẫu quỹ đạo f jg từ chính sách tôi 4: cho s nhà nước trong fg làm 5: Mẫu một loạt âm fs0kg từ B. 6: 7: Train phân biệt DSđể giảm thiểu Eq. (1) với s tích cực, và âm fs0kg. Tính thưởng R0(S; a) = R (s; a) + f (DS(S)) kết thúc cho Cải tiến tôi Đối với R với0(S; a) sử dụng bất kỳ phương pháp tối ưu hóa chính sách. BB [f tôig 11: kết thúc cho 8: 9: 10: Trong thí nghiệm của chúng tôi, chúng tôi sử dụng heuristic log thưởng p (s), do thực tế rằng hằng số bình thường trở nên hấp thụ bởi đường cơ sở được sử dụng trong thuật toán RL điển hình. Đối với lĩnh vực riêng biệt, chúng tôi cũng có thể sử dụng một p đếm dựa trên 1 = N (s) (Tang et al., 2017), trong đó N (s) = NP (s), và n là kích thước của replay đệm B. Một bản tóm tắt của EX2 cho một lô chung tăng cường học được thể hiện trong thuật toán 1. 6 mô hình kiến trúc Để xử lý những quan sát phức tạp như hình ảnh, chúng tôi triển khai mô hình mẫu mực của chúng tôi sử dụng các mạng thần kinh, với các mô hình xoắn sử dụng cho các tên miền dựa trên hình ảnh. Để giảm chi phí tính toán của huấn luyện phân loại lớn như vậy mỗi mẫu mực, chúng tôi khám phá hai phương pháp khấu hao việc tính toán trên nhiều ví dụ. 6.1Amortized Multi-Exemplar mẫu Thay vì đào tạo một phân loại riêng biệt cho từng mẫu mực, chúng tôi thay vì có thể đào tạo một mô hình duy nhất đó là lạnh vào x ví dụ điển hình. Khi sử dụng việc xây dựng không gian tiềm ẩn, chúng tôi đặt điều kiện p tiềm ẩn không gian phân biệt (yjz) trên một phiên bản được mã hóa của x do q (z jx), kết quả trong một phân loại đối với hình thức p (yjz; z) = D (z; z )y(1 D (z; z))1 y. Ưu điểm của mô hình khấu hao này là nó không đòi hỏi chúng ta phải đào tạo discriminators mới từ đầu tại mỗi lần lặp, và cung cấp một mức độ tổng quát để ước lượng mật độ tại các quốc gia mới. Một sơ đồ của kiến trúc này được hiển thị trong Hình 1. Kiến trúc khấu hao có sự xuất hiện của một toán tử so sánh: nó được huấn luyện để đầu ra 0 khi x 6 = x, và các giá trị phân biệt tối ưu được đề cập trong phần 4 khi x = x, tùy thuộc vào mịn áp đặt bởi tiếng ồn không gian tiềm ẩn. 6.2K-Exemplar mẫu Chừng nào việc phân phối các ví dụ tích cực được biết đến, chúng tôi có thể phục hồi ước tính mật độ qua Eq. (3). Do đó, chúng tôi cũng có thể xem xét một loạt các hình mẫu x1; :::; xKVà mẫu từ đợt này thống nhất trong đào tạo. Chúng tôi đề cập đến mô hình này là mô hình "K-Exemplar", cho phép chúng ta suy suôn sẻ giữa một mô hình mạnh mẽ hơn với một phân biệt mỗi trạng thái (K = 1) với một mô hình yếu có sử dụng một phân biệt duy nhất cho tất cả các nước (K = bang #). Một cuộc thảo luận chi tiết hơn về phương pháp này được bao gồm trong Phụ lục A.2. Trong thí nghiệm của chúng tôi, chúng tôi hàng loạt các quốc gia lân cận trong một quỹ đạo vào bộ phân biệt cùng tương ứng với một hình thức chính quy thời gian mà giả định rằng các quốc gia lân cận trong thời gian tương tự. Chúng tôi cũng chia sẻ phần lớn lớp giữa discriminators trong mạng thần kinh tương tự như (Osband et al., 2016), và chỉ cho phép các lớp tuyến tính chính thức thay đổi giữa discriminators, mà buộc các lớp chia sẻ để học một đại diện tính năng doanh, tương tự như mô hình khấu hao. Một kiến trúc ví dụ được trình bày trong Hình 1. 6.3 Mối quan hệ với Generative Adverserial Networks (Gans) thuật toán thăm dò của chúng tôi có một giải thích thú vị liên quan đến Gans (Goodfellow et al., 2014). Chính sách này có thể được xem như là các máy phát điện của một GAN, và mô hình mẫu mực đóng vai trò như bộ phân biệt, mà là cố gắng để phân loại các quốc gia từ hàng loạt hiện hành của quỹ đạo chống trước 6 a) Kiến trúc khấu hao b) K-Exemplar Kiến trúc Hình 1: Một sơ đồ của một của chúng tôi) khấu hao theo kiến trúc mô hình và b) cấu trúc mô hình K-ví dụ điển hình. Tiếng ồn được tiêm sau khi các mô-đun mã hóa (a) hoặc sau khi các lớp chia sẻ (b). Mặc dù có thể, chúng tôi không buộc các bộ mã hóa (a) trong các thí nghiệm của chúng tôi. tiểu bang. Sử dụng phiên bản K-mẫu mực của thuật toán của chúng tôi, chúng ta có thể đào tạo một phân biệt duy nhất cho tất cả các nước trong lô hiện tại (chứ không phải là một cho mỗi tiểu bang), trong đó phản ánh thiết lập GAN. Trong Gans, máy phát điện đóng một trò chơi adverserial với bộ phân biệt bằng cách cố gắng để tạo ra mẫu không thể phân biệt để đánh lừa bộ phân biệt. Tuy nhiên, trong thuật toán của chúng tôi, các máy phát điện được khen thưởng vì đã giúp bộ phân biệt chứ không phải lừa nó, vì vậy thuật toán của chúng tôi chơi một trò chơi hợp tác thay vì một người adverserial. Thay vào đó, họ đang cạnh tranh với sự tiến triển của thời gian: là trạng thái lạ trở nên ghé thăm thường xuyên, bộ đệm phát lại sẽ trở nên bão hòa với trạng thái đó và nó sẽ mất tính mới của nó. Khách sạn này là mong muốn ở chỗ nó buộc các chính sách để liên tục tìm kiếm các quốc gia mới mà từ đó để nhận tiền thưởng thăm dò. 7 Đánh giá thực nghiệm Mục đích của việc đánh giá thực nghiệm của chúng tôi là để so sánh EX2phương pháp để cả một chiến lược thăm dò ngây thơ và gần đây để đề xuất phương án thăm dò để gia cố sâu học tập dựa trên mô hình mật độ rõ ràng. Chúng tôi trình bày kết quả trên cả hai nhiệm vụ chuẩn thấp chiều sử dụng trong công việc trước đây, và về nhiệm vụ dựa trên tầm nhìn phức tạp hơn, nơi mà các phương pháp thăm dò thưởng mật độ dựa trên trước rất khó để áp dụng. Chúng tôi sử dụng TRPO (Schulman et al., 2015) để tối ưu hóa chính sách, bởi vì nó hoạt động trên cả hai không gian hoạt động liên tục và rời rạc, và do vững mạnh tương đối của nó để lựa chọn siêu tham số (Duẩn et al., 2016). mã của chúng tôi và bổ sung bao gồm các video tài liệu bổ sung sẽ có mặt tạihttps://sites.google.com/view/ex2exploration. Nhiệm vụ thực nghiệm thí nghiệm của chúng tôi bao gồm ba nhiệm vụ thấp chiều nhằm đánh giá xem EX2có thể thực hiện thành công ước ngầm mật độ và tiền thưởng thăm dò máy tính, và bốn nhiệm vụ dựa trên hình ảnh chiều cao khó khăn nhằm đánh giá liệu ước tính mật độ ngầm cung cấp sự cải thiện trong các lĩnh vực nơi xây dựng mô hình sinh sản rất khó thay đổi. Nhiệm vụ thấp chiều đầu tiên là một 2D mê cung liên tục với một hàm thưởng thưa thớt mà chỉ cung cấp một phần thưởng khi nhân viên là trong vòng bán kính nhỏ của đối phương. Bởi vì nhiệm vụ này là 2D, chúng ta có thể sử dụng nó để trực tiếp hình mật độ thăm viếng nhà nước và so sánh với một phương pháp biểu đồ ràng buộc trên cho ước lượng mật độ. Hai nhiệm vụ thấp chiều khác là nhiệm vụ chuẩn từ OpenAI bộ phòng tập thể dục chuẩn, SparseHalfCheetah và SwimmerGather, trong đó cung cấp cho một so sánh với công việc trước khi vào tiền thưởng thăm dò sinh sản trong sự hiện diện của phần thưởng thưa thớt. Đối với các nhiệm vụ dựa trên tầm nhìn, chúng tôi bao gồm ba trò chơi Atari, cũng như một nhiệm vụ chuyển hướng khó khăn hơn nhiều cái tôi làm trung tâm dựa trên vizDoom (DoomMyWayHome +). Các trò chơi Atari được bao gồm cho dễ dàng so sánh với các phương pháp trước dựa trên mô hình generative, nhưng không cung cấp quan sát trực quan đặc biệt khó khăn, kể từ khi hình ảnh 2D sạch và đa dạng hình ảnh tương đối thấp của những công việc làm người mẫu sinh sản dễ dàng. Trong thực tế, công việc trước khi vào dự đoán video cho trò chơi Atari dễ dàng đạt dự đoán chính xác hàng trăm khung hình trong tương lai (Oh et al., 2015), trong khi dự đoán video trên hình ảnh tự nhiên đang thách thức thậm chí một vài khung hình trong tương lai (Mathieu et al ., 2015). Các vizDoom mê cung hướng nhiệm vụ được thiết kế để cung cấp một so sánh với các phương pháp trước với các quan sát đáng kể khó khăn hơn: các trò chơi có quan điểm người thứ nhất, hình ảnh 3D, và khả năng quan sát một phần, cũng như những thách thức thường gắn liền với những phần thưởng thưa thớt. Chúng tôi làm nhiệm vụ đặc biệt khó khăn bằng cách khởi tạo các đại lý trong phòng xa nhất từ vị trí mục tiêu, 7 b) Thực c) khác nhau a) Exemplar nghiệm Smoothing Hình 2: a, b) Minh hoạ mật độ ước tính trên 2D mê cung nhiệm vụ sản xuất theo mô hình của chúng tôi (a), so với empiriHình 3: Ví dụ về việc hình ảnh. cal rời rạc hóa phân phối (b). Phương pháp của chúng tôi cung Từ trên xuống dưới, từ trái qua cấp hợp lý, phải: Bản đồ của MyWayHome hơi vuốt ước tính mật độ. c) ước tính mật độ thân Doom, duced với ước lượng mật độ ngầm của chúng tôi trên một nhiệm vụ (mục tiêu là màu xanh tập dữ liệu đồ chơi (hàng đầu lá cây, bắt đầu là màu xanh), trái), với sự gia tăng số lượng của tiếng ồn quy tắc. Venture, HalfCheetah. đòi hỏi phải có nó để điều hướng qua 8 phòng trước khi đạt được mục tiêu. hình ảnh mẫu lấy từ một số các nhiệm vụ được thể hiện trong hình 3 và mô tả công việc chi tiết được trình bày trong Phụ lục A.3. Chúng tôi so sánh hai biến thể của phương pháp của chúng tôi (K-ví dụ điển hình và khấu hao) để chuẩn ngẫu nhiên cựu ploration, ước lượng mật độ hạt nhân (KDE) với hạt nhân RBF, một phương pháp dựa trên mạng mô hình generative thần kinh Bayes gọi VIME (Houthooft et al., 2016 ), và tiền thưởng dựa trên thăm dò băm không gian tiềm ẩn đã học qua một autoencoder (Tang et al., 2017). 2D Mê On thoát khỏi mê cung 2D, chúng tôi trực quan có thể so sánh mật độ nhà nước ước lượng từ mô hình mẫu mực của chúng tôi và sự phân bố nhà thăm viếng thực nghiệm lấy mẫu từ bộ đệm phát lại, như thể hiện trong hình 2. mô hình của chúng tôi tạo ra ước tính mật độ hợp lý mà mịn ra sự thật phân phối thực nghiệm. Để đạt hiệu quả thăm dò, thể hiện trong Bảng 1, TRPO với thăm dò Gaussian không thể tìm thấy mục tiêu thưởng thưa thớt, trong khi cả hai biến thể của phương pháp của chúng tôi hoạt động tương tự VIME và KDE. Kể từ khi chiều của nhiệm vụ là thấp, chúng tôi cũng sử dụng một phương pháp biểu đồ dựa trên ước tính mật độ, cung cấp một trên ràng buộc về việc thực hiện thăm dò đếm dựa trên nhiệm vụ này. Kiểm soát liên tục: SwimmerGather và SparseHalfCheetah SwimmerGather và SparseHalfCheetah là hai nhiệm vụ kiểm soát liên tục thách thức bởi Houthooft et al đề xuất. (2016). Cả hai môi trường đặc trưng thưởng thưa thớt và quan sát vừa chiều (33 và 20 kích thước tương ứng). SwimmerGather là một nhiệm vụ thứ bậc trong đó không có các thuật toán trước đó sử dụng thăm dò ngây thơ đã thực hiện bất kỳ sự tiến bộ. kết quả của chúng tôi chứng minh rằng, ngay cả trên các nhiệm vụ vừa chiều nơi mô hình generative rõ ràng nên thực hiện tốt, tiềm ẩn phương pháp ước lượng mật độ của chúng tôi đạt được kết quả cạnh tranh. EX2, VIME, và Băm tốt hơn đáng kể các thuật toán ngây thơ TRPO và KDE trên SwimmerGather, và được phân bổ EX2nhanh hơn so với tất cả các phương pháp khác về thưa thớt-HalfCheetah bằng lãi đáng kể. Điều này cho thấy rằng các ước tính mật độ ngầm thu được bằng phương pháp của chúng tôi cung cấp cho tiền thưởng thăm dò mà có thể cạnh tranh với một loạt các kỹ thuật ước lượng mật độ rõ ràng. Image-Based Control: Atari và Doom Trong tập cuối cùng của chúng ta về các thí nghiệm, chúng tôi kiểm tra khả năng của các thuật toán của chúng tôi để mở rộng quy mô để đầu vào cảm giác phong phú và không gian nhà nước dựa trên hình ảnh chiều cao. Chúng tôi chọn một số trò chơi Atari có thưởng thưa thớt và trình bày một thách thức thăm dò, cũng như một chuẩn mực mê cung navigation dựa trên vizDoom. Mỗi miền thể hiện một bộ duy nhất của những thách thức. Tên miền vizDoom chứa những hình ảnh thực tế nhất, và môi trường được nhìn từ một góc độ ích kỷ mà làm cho xây dựng động lực học mô hình khó khăn và tăng tầm quan trọng của làm mịn thông minh và khái quát. Các trò chơi Atari (Freeway, tê cóng, Venture) chứa các hình ảnh đơn giản từ một người thứ ba quan điểm, nhưng thường chứa nhiều chuyển động, các đối tượng phụ tá rằng một mô hình mật độ phải khái quát đến. Freeway và Venture chứa thưởng thưa thớt, kết quả của chúng tôi chứng minh rằng EX2có khả năng tạo ra hành vi thăm dò mạch lạc thậm chí môi trường thị giác chiều cao, phù hợp với các phương pháp trước khi hoạt động tốt nhất trên các trò chơi Atari. Về nhiệm vụ khó khăn nhất, DoomMyWayHome +, phương pháp của chúng tôi vượt xa tất cả các trước số 8 K-Ex. Bài tập (Chúng ta) 2D Mê -104,2 SparseHalfCheetah 3,56 SwimmerGather 0,228 Freeway (Atari) Tê cóng (Atari) Venture (Atari) DoomMyWayHome 0,740 1Houthooft et al. (2016) Amor. (Chúng ta) -132,2 173,2 0,240 33.3 4901 900 0,788 2Schulman et al. (2015) VIME1 TRPO2 băm3 -135,5 -175,6 98,0 0 0,5 0,196 0 0.258 16.5 33,5 2869 5214 121 445 0,443 0,250 0,331 KDE -117,5 0 0,098 0,195 Biểu đồ -69,6 - 3Tang et al. (2017) Bảng 1: (. Houthooft et al, 2016) điểm trung bình (cao hơn là tốt hơn) của thuật toán của chúng tôi (cả K-ví dụ điển hình và khấu hao) so với VIME, TRPO ban đầu, băm, và ước lượng mật độ hạt nhân (KDE). Cách tiếp cận của chúng tôi nói chung phù hợp với việc thực hiện các phương pháp ước lượng mật độ rõ ràng trước và vượt cao trình diễn của họ trên DoomMyWayHome + nhiệm vụ đầy thử thách, có tính năng chuyển động camera, khả năng quan sát một phần, và phần thưởng vô cùng thưa thớt. Chúng tôi không chạy VIME hoặc K-Exemplar trên các trò chơi Atari do chi phí tính toán. trò chơi Atari được đào tạo cho 50 M bước thời gian. đường cong học tập có trong Phụ lục A.5 kỹ thuật thăm dò, và có khả năng hướng dẫn các đại lý thông qua nhiều phòng đến mục tiêu. Kết quả này cho thấy lợi ích của việc ước lượng mật độ ngầm: trong khi ước lượng mật độ rõ ràng có thể đạt được kết quả tốt trên đơn giản, hình ảnh sạch trong các trò chơi Atari, họ bắt đầu đấu tranh với các quan sát egocentric phức tạp hơn trong vizDoom, trong khi EX của chúng tôi2 có thể cung cấp ước tính mật độ hợp lý và đạt được kết quả tốt. số 8 Kết luận và tương lai làm việc Chúng tôi trình bày EX2, Một chiến lược thăm dò khả năng mở rộng dựa trên mô hình đào tạo mẫu mực phân biệt gán tiền thưởng mới lạ. Chúng tôi cũng chứng minh một kết nối mới giữa các mô hình mẫu mực và ước lượng mật độ, mà thúc đẩy các thuật toán của chúng tôi như xấp xỉ thăm dò giả đếm. kỹ thuật ước lượng mật độ này cũng không đòi hỏi xây dựng lại mẫu để đào tạo, không giống như hầu hết các phương pháp sinh sản đào tạo hoặc các mô hình năng lượng dựa trên. kết quả thực nghiệm của chúng tôi cho thấy rằng EX2có xu hướng để đạt được kết quả tương đương với nhà nước-of-the-art trước cho các nhiệm vụ kiểm soát liên tục trên môi trường thấp chiều, và có thể mở rộng một cách duyên dáng để xử lý đầu vào cảm giác phong phú như hình ảnh. Kể từ khi phương pháp của chúng tôi tránh sự cần thiết cho mô hình sinh sản của các quan sát dựa trên hình ảnh phức tạp, nó vượt quá hiệu suất của phương pháp trước khi sinh sản trên các lĩnh vực với các chức năng quan sát phức tạp hơn, chẳng hạn như việc chuyển hướng ích kỷ Doom. Để hiểu được sự cân bằng giữa các mô hình mẫu mực đào tạo discriminatively và sinh sản modEling, nó giúp để xem xét hành vi của hai phương pháp khi overfitting hoặc underfitting. Cả hai phương pháp này sẽ gán thưởng phẳng khi underfitting và tiền thưởng cao cho tất cả các quốc gia mới khi overfitting. Tuy nhiên, trong trường hợp của mô hình mẫu mực, overfitting rất dễ dàng với các quan sát chiều cao, đặc biệt trong mô hình khấu hao nơi mạng chỉ đơn giản đóng vai trò như một so sánh. Underfitting cũng rất dễ dàng để đạt được, chỉ đơn giản bằng cách tăng cường độ của tiếng ồn tiêm vào không gian tiềm ẩn. Do đó, mặc dù cả hai cách tiếp cận có thể bị từ overfitting và underfitting, phương pháp mẫu mực cung cấp một hyperparameter duy nhất mà nội suy giữa hai thái cực này mà không thay đổi mô hình. Một đại lộ thú vị cho công việc tương lai sẽ được điều chỉnh yếu tố làm mịn này tự động, dựa vào lượng dữ liệu có sẵn. Tổng quát hơn, ước tính mật độ ngầm với các mô hình mẫu mực có khả năng được sử dụng trong các ứng dụng tính toán mật độ khác, và khám phá các ứng dụng như vậy sẽ khác hướng thú vị cho công việc trong tương lai. Lời cảm ơn Chúng tôi xin chân thành cám ơn Adam Stooke, Sandy Huang, và Haoran Tang cho việc cung cấp mã tìm kiếm chính sách hiệu quả và parallelizable. Chúng tôi cảm ơn Joshua Achiam để được giúp đỡ với việc thiết lập nhiệm vụ chuẩn. Nghiên cứu này được hỗ trợ bởi NSF IIS-1614653, NSF IIS-1700696, một giải thưởng Chương trình Điều tra viên ONR Young, và Berkeley DeepDrive. 9 Tài liệu tham khảo Abel, David, Agarwal, Alekh, Diaz, Fernando, Krishnamurthy, Akshay, và Schapire, Robert E. thăm dò dốc thúc đẩy cho tăng cường học tập trong các lĩnh vực phức tạp. Trong Những tiến bộ trong thần kinh Hệ thống thông tin xử lý (NIPS) năm 2016. Achiam, Giô-suê và Sastry, Shankar. động lực nội tại Surprise-dựa cho học tăng cường sâu. Corr, abs / 1703,01732, năm 2017. Barto, Andrew G. và Mahadevan, Sridhar. Tiến bộ mới trong học tăng cường phân cấp. Tổ chức sự kiện rời rạc động Systems, 13 (1-2), 2003. Bellemare, Marc G., Srinivasan, Sriram, Ostrovski, Georg, Schaul, Tom, Saxton, David, và MUNOS, Remi. thăm dò đếm dựa trên thống nhất và động lực nội tại. Trong Những tiến bộ trong Informa-tion Hệ thống thần kinh Processing (NIPS) năm 2016. Brafman, Ronen I. và Tennenholtz, Moshe. R-max - một thuật toán thời gian đa thức chung cho tăng cường học tập gần như tối ưu. Tạp chí Nghiên cứu Machine Learning (JMLR), 2002. Bubeck, Sébastien và CESA-Bianchi, Nicolò. Hối tiếc phân tích ngẫu nhiên và nonstochastic vấn đề chia nhiều nhánh. Các tổ chức và Xu hướngR trong Machine Learning, 5, 2012. Chapelle, O. và Li, Lihong. Một đánh giá thực nghiệm lấy mẫu thompson. Trong Những tiến bộ trong thần kinh Hệ thống thông tin xử lý (NIPS), 2011. Chentanez, Nuttapong, Barto, Andrew G, và Singh, Satinder P. Intrinsically có động cơ Rein-forcement Learning. Trong Những tiến bộ trong thần kinh Hệ thống thông tin xử lý (NIPS). MIT Press, 2005. Duẩn, Yan, Chen, Xi, Houthooft, Rein, Schulman, John, và Abbeel, Pieter. Điểm chuẩn tăng cường sâu học tập để kiểm soát liên tục. Trong Hội nghị quốc tế về Machine Learning (ICML) năm 2016. Florensa, Carlos Campo, Duẩn, Yan, và Abbeel, Pieter. mạng nơ-ron Stochastic cho học tăng cường phân cấp. Trong Hội nghị quốc tế về học tập Đại diện (ICLR), năm 2017. Goodfellow, Ian, Pouget-Abadie, Jean, Mirza, Mehdi, Xu, Bing, Warde-Farley, David, Ozair, Sherjil, Courville, Aaron, và Bengio, Yoshua. lưới gây tranh cãi Generative. Trong Những tiến bộ trong thần kinh Hệ thống thông tin xử lý (NIPS). Năm 2014. Heess, Nicolas, Wayne, Gregory, Tassa, Yuval, Lillicrap, Timothy P., Riedmiller, Martin A., và Silver, David. Học tập và chuyển giao công điều khiển vận động được điều chế. Corr, abs / 1610,05182 năm 2016. Houthooft, Rein, Chen, Xi, Duẩn, Yan, Schulman, John, Turck, Filip Đế, và Abbeel, Pieter. Vime: Thông tin Variational tối đa hóa thăm dò. Trong Những tiến bộ trong thần kinh Hệ thống thông tin xử lý (NIPS) năm 2016. Kakade, Sham, Kearns, Michael, và Langford, John. Thăm dò trong không gian nhà nước theo hệ mét. Trong Hội nghị quốc tế về Machine Learning (ICML), 2003. Kearns, Michael và Singh, Satinder. tăng cường gần như tối ưu học tập trong thời gian đa thức. Machine Learning, 2002. Kolter, J. Zico và Ng, thăm dò Andrew Y. Gần-Bayes trong thời gian đa thức. Trong Hội nghị quốc tế về Machine Learning (ICML), 2009. Kulkarni, Tejas D, Narasimhan, Karthik, Saeedi, Ardavan, và Tenenbaum, Josh. Thứ bậc sâu tăng cường học tập: Lồng ghép trừu tượng thời gian và động lực nội tại. Trong Những tiến bộ trong thần kinh Hệ thống thông tin xử lý (NIPS). Năm 2016. Lillicrap, Timothy P., Hunt, Jonathan J., Pritzel, Alexander, Heess, Nicolas, Erez, Tom, Tassa, Yuval, Bạc, David, và Wierstra, Daan. kiểm soát liên tục với học tăng cường sâu. Trong Hội nghị quốc tế về học tập Đại diện (ICLR) năm 2015. 10 Malisiewicz, Tomasz, Gupta, Abhinav, và Efros, Alexei A. Ensemble của mẫu mực-SVMs để phát hiện đối tượng và xa hơn nữa. Trong Hội nghị quốc tế trên máy tính Vision (ICCV), 2011. Mathieu, Michaël, Couprie, Camille, và LeCun, Yann. Sâu dự đoán video đa quy mô vượt quá sai số toàn phương trung bình. Corr, abs / 1511,05440 năm 2015. URLhttp://arxiv.org/abs/1511.05440. Mnih, Volodymyr, Kavukcuoglu, Koray, Bạc, David, Rusu, Andrei A., Veness, Joel, Bellemare, Marc G., Graves, Alex, Riedmiller, Martin, Fidjeland, Andreas K., Ostrovski, Georg, Petersen, Stig, Beattie, Charles, Sadik, Amir, Antonoglou, Ioannis, king, Helen, Kumaran, Dharshan, Wierstra, Daan, Legg, Shane, và Hassabis, Demis. kiểm soát nhân lực trình độ thông qua học tăng cường sâu. Thiên nhiên, 518 (7540): 529-533, 02 năm 2015. Oh, Junhyuk, Guo, Xiaoxiao, Lee, Honglak, Lewis, Richard, và Singh, Satinder. dự đoán phim hành động có điều kiện sử dụng các mạng sâu trong các trò chơi Atari. Trong Những tiến bộ trong thần kinh Hệ thống thông tin xử lý (NIPS) năm 2015. Osband, Ian, Blundell, Charles, và Alexander Pritzel, Benjamin Van Roy. thăm dò sâu qua DQN bootstrapped. Trong Những tiến bộ trong thần kinh Hệ thống thông tin xử lý (NIPS) năm 2016. Pathak, Deepak, Agrawal, Pulkit, Efros, Alexei A., và Darrell, Trevor. Curiosity-driven thăm dò bằng cách dự đoán tự giám sát. Trong Hội nghị quốc tế về Machine Learning (ICML), năm 2017. Pazis, Jason và Parr, Ronald. thăm dò tối ưu pac trong các quá trình ra quyết định không gian Markov liên tục. Trong Hội nghị AAAI về Trí tuệ nhân tạo (AAAI) năm 2013. Salimans, Tim, Goodfellow, Ian J., Zaremba, Wojciech, Cheung, Vicki, Radford, Alec, và Chen, Xi. Cải thiện kỹ thuật cho Gans đào tạo. Trong Những tiến bộ trong thần kinh Hệ thống thông tin xử lý (NIPS) năm 2016. Schmidhuber, Jürgen. Một khả năng để thực hiện sự tò mò và sự nhàm chán trong các bộ điều khiển thần kinh mô hình xây dựng. Trong Kỷ yếu của Hội nghị quốc tế lần thứ nhất về Mô phỏng các hành vi thích ứng trên từ động vật sang Animats, Cambridge, MA, USA, 1990. MIT Press. ISBN 0-262-63138-5. Schulman, John, Levine, Sergey, Moritz, Philipp, Jordan, Michael I., và Abbeel, Pieter. Tin tưởng tối ưu hóa chính sách khu vực. Trong Hội nghị quốc tế về Machine Learning (ICML) năm 2015. Stadie, Bradly C., Levine, Sergey và Abbeel, Pieter. thăm dò các tổn trong tăng cường học tập với các mô hình dự báo sâu. Corr, abs / 1507,00814 năm 2015. Stolle, Martin và Precup, Doina. Learning Options trong Cốt Learning. Springer Berlin Heidelberg, Berlin, Heidelberg, 2002. ISBN 978-3-540-45622-3. doi: 10,1007 / 3-540-45622-8_16. Strehl, Alexander L. và Littman, phân tích Michael L. An ước tính khoảng dựa trên mô hình cho quá trình ra quyết định Markov. Tạp chí máy tính và hệ thống khoa học, 2009. Tang, Haoran, Houthooft, Rein, Foote, Davis, Stooke, Adam, Chen, Xi, Duẩn, Yan, Schulman, John, Turck, Filip Đế, và Abbeel, Pieter. #exploration: Một nghiên cứu thăm dò đếm dựa cho học tăng cường sâu. Trong Những tiến bộ trong thần kinh Hệ thống thông tin xử lý (NIPS), năm 2017. 11