Uploaded by Nguyen Duc Anh

Exemplar Deep RL for Exploration

advertisement
EX2: Thăm dò với Models Exemplar Deep
Học tăng cường
Justin Fu John D. Co-Reyes Sergey Levine Đại học California Berkeley {justinfu, jcoreyes, svlevine} @
eecs.berkeley.edu
trừu tượng
thuật toán học sâu cốt đã được chứng minh để học hỏi các nhiệm vụ phức tạp sử
dụng các lớp học chính sách cao nói chung. Tuy nhiên, vấn đề thưởng thưa thớt
vẫn là một thách thức đáng kể. phương pháp thăm dò dựa trên sự phát hiện mới
lạ đã đặc biệt thành công trong môi trường như vậy nhưng thường đòi hỏi mô
hình generative hoặc tiên đoán của các quan sát, có thể là khó khăn để đào tạo
khi các quan sát là rất cao chiều và phức tạp, như trong trường hợp các hình ảnh
thô. Chúng tôi đề xuất một thuật toán phát hiện mới lạ để khám phá đó là dựa mô
hình mẫu mực hoàn toàn vào đào tạo discriminatively, nơi phân loại được đào
tạo để phân biệt mỗi tiểu bang thăm chống lại tất cả những người khác. Bằng
trực giác, các quốc gia mới được dễ dàng hơn để phân biệt chống lại các tiểu
bang khác nhìn thấy trong đào tạo.
1. Giới thiệu
nghiên cứu gần đây đã chỉ ra rằng phương pháp kết hợp tăng cường học tập với giàu chức năng approximators, chẳng hạn như các mạng thần kinh sâu, có thể giải quyết một loạt các nhiệm vụ phức tạp,
từ chơi trò chơi Atari (Mnih et al., 2015) để kiểm soát robot mô phỏng (Schulman et al., 2015). Mặc dù
phương pháp học tăng cường sâu cho phép cơ quan đại diện chính sách phức tạp, họ không tự giải
quyết vấn đề thăm dò: khi các tín hiệu phần thưởng là rất hiếm và thưa thớt, các phương pháp như vậy
có thể gặp khó khăn để có được những chính sách có ý nghĩa. chiến lược thăm dò tiêu chuẩn, chẳng
hạn như chiến lược -greedy (Mnih et al., 2015) hoặc tiếng ồn Gaussian (Lillicrap et al., 2015), là vô
hướng và không dứt khoát tìm ra trạng thái thú vị. Một con đường đầy hứa hẹn để thăm dò đạo hơn là để
ước tính một cách rõ ràng sự mới lạ của một quốc gia, sử dụng mô hình dự báo tạo ra trạng thái trong
tương lai (Schmidhuber, 1990; Stadie et al, 2015;. Achiam & Sastry, 2017) hoặc mật độ trạng thái mô
hình (Bellemare et al, 2016;. Tang et al, 2017;.. Abel et al 2016 ). khái niệm liên quan như tiền thưởng
đếm dựa trên đã được chứng minh để cung cấp speedups phụ stantial trong cốt cổ điển học (Strehl &
Littman, 2009; Kolter & Ng, 2009), và một số tác phẩm gần đây đã đề xuất cách tiếp cận thông tin lý
thuyết hoặc xác suất để thăm dò dựa trên ý tưởng này (Houthooft et al, 2016;. Chentanez et al, 2005).
bằng cách vẽ trên kết quả chính thức trong các hệ thống rời rạc hoặc tuyến tính đơn giản (Bubeck &
CESA-Bianchi, 2012). Tuy nhiên, hầu hết các phương pháp ước lượng mới lạ dựa trên việc xây dựng mô
hình generative hoặc tiên đoán rằng mô hình một cách rõ ràng sự phân bố trên các quan sát hiện tại
hoặc tiếp theo. Khi quan sát rất phức tạp và chiều cao, chẳng hạn như trong trường hợp các hình ảnh
thô, các mô hình này có thể khó khăn để đào tạo, kể từ khi tạo ra và dự đoán hình ảnh và các đối tượng
chiều cao khác vẫn là một vấn đề mở, bất chấp những tiến bộ gần đây (Salimans et al., 2016). Mặc dù
kết quả thành công với mô hình mới lạ sinh sản đã được báo cáo với hình ảnh tổng hợp đơn giản, chẳng
hạn như trong các trò chơi Atari (Bellemare et al, 2016;.. Tang et al, 2017), chúng tôi hiển thị trong của
chúng tôi
đóng góp bằng nhau.
thí nghiệm phương pháp sinh sản như đấu tranh với các quan sát phức tạp hơn và tự
nhiên, chẳng hạn như các quan sát hình ảnh cái tôi làm trung tâm trong benchmark
vizDoom.
Làm thế nào chúng ta có thể ước tính sự mới lạ của các quốc gia được du khách thăm quan, do đó cung cấp tín hiệu
động lực nội tại để học tăng cường, mà không xây dựng một cách rõ ràng các mô hình dự đoán hoặc tiên đoán của
nhà nước hay sự quan sát? Ý tưởng chính trong thuật toán EX2 của chúng tôi là ước tính các điểm mới bằng cách
xem xét sự phân loại được phân biệt dễ dàng như thế nào để phân biệt một trạng thái mới từ các trạng thái khác
được xem trước đây. Có thể hiểu là, nếu một trạng thái dễ phân biệt với các trạng thái khác, nó có thể là cái mới. Ở
đây, chúng tôi đề xuất đào tạo các mô hình mẫu cho mỗi tiểu bang phân biệt trạng thái đó với tất cả các trạng thái
quan sát khác.
Chúng tôi trình bày hai đóng góp kỹ thuật quan trọng mà làm cho phương pháp này có khả năng sử dụng trong thực
tế.
( Cái này về kết quả thống kê ) Đầu tiên, chúng tôi mô tả cách thức các mô hình mẫu được phân loại để có thể được
sử dụng ước lượng mật độ tiềm ẩn, cho phép chúng tôi thống nhất thống kê này với lý thuyết dựa trên số lượng thăm
dò. Thử nghiệm của chúng tôi minh họa rằng, trong các miền đơn giản, mật độ ước tính ngầm cung cấp ước tính tốt
về mật độ trạng thái cơ bản mà không có bất kỳ phát sinh nào.
(Cái này là nói về sự mới lạ của PP) Thứ hai, chúng tôi chỉ ra cách phân bổ cho các mô hình mẫu để ngăn chặn mấy
cái phát sinh khác với số lượng các trạng thái, làm cho phương pháp tiếp cận thực tế và có khả năng mở rộng.
Vì phương pháp của chúng tôi không yêu cầu bất kỳ mô hình phát sinh nào, chúng tôi có thể sử dụng nó trên một
loạt các tác vụ dựa trên hình ảnh phức tạp, bao gồm trò chơi Atari và điểm chuẩn vizDoom, có hình ảnh 3D phức tạp
và chuyển động máy ảnh phong phú do quan điểm egocentric. Kết quả của chúng tôi cho thấy rằng EX2 khớp với
hiệu suất của các phương pháp khám phá dựa trên tính mới dựa trên các nhiệm vụ đơn giản hơn, chẳng hạn như các
tiêu chí kiểm soát liên tục và Atari, và vượt quá hiệu suất của chúng trên miền vizDoom phức tạp, cho thấy giá trị
của ước tính mật độ tiềm ẩn và động lực nội tại.
2 Công việc liên quan
Trong MDPs, các thuật toán thăm dò hữu hạn như E3(Kearns & Singh, 2002) và R-max (Brafman
& Tennenholtz, 2002) cung cấp đảm bảo tối ưu về lý thuyết. Tuy nhiên, những phương pháp này
thường đòi hỏi duy trì đếm thăm viếng nhà nước hành động, có thể làm mở rộng họ với tình trạng
chiều và / hoặc liên tục cao rất khó khăn. Khám phá trong không gian trạng thái như vậy đã thường
liên quan đến chiến lược như giới thiệu số liệu khoảng cách so với không gian trạng thái; và xấp xỉ
số lượng được sử dụng trong phương pháp thăm dò cổ điển (Pazis & Parr 2013 Kakade et al.,
2003). công trình trước đã sử dụng ước tính cho số lượng nhà thăm viếng (Tang et al, 2017;.
Bellemare et al, 2016;.. Abel et al, 2016), tăng thông tin, hoặc lỗi dự đoán dựa trên mô hình động
lực học (Houthooft et al ., 2016;. Stadie et al, 2015; Achiam & Sastry, 2017). Bellemare et al.
Các phương pháp khác tránh việc giải quyết vấn đề thăm dò trực tiếp và sử dụng ngẫu nhiên trên
các thông số mô hình để khuyến khích hành vi tiểu thuyết (Chapelle & Li, 2011). Ví dụ,
bootstrapped DQN (Osband et al., 2016) tránh sự cần thiết để xây dựng một mô hình sinh sản của
nhà nước bằng cách thay vì đào tạo các chức năng nhiều, giá trị ngẫu nhiên và thực hiện thăm dò
bằng cách lấy mẫu một hàm giá trị, và thực hiện các chính sách tham lam liên quan đến việc chức
năng giá trị. Trong khi các phương pháp như mở rộng để không gian trạng thái phức tạp cũng như
các thuật toán RL sâu tiêu chuẩn, họ không cung cấp rõ ràng hành vi mới lạ-tìm kiếm, mà là một
hành vi thăm dò ngẫu nhiên có cấu trúc hơn.
Một hướng khám phá trong công việc trước là để kiểm tra thăm dò trong bối cảnh của các mô hình phân
cấp. Một đại lý có thể có những hành động tạm thời mở rộng thể hiện dưới dạng nguyên thủy hành động
hoặc các kỹ năng có thể dễ dàng khám phá môi trường (Stolle & Precup, 2002). Thứ bậc tăng cường học
tập có truyền thống cố gắng khai thác trừu tượng thời gian (Barto & Mahadevan, 2003) và dựa vào các
quá trình ra quyết định Markov bán. Một vài tác phẩm gần đây trong RL sâu đã sử dụng hệ thống phân
cấp để khám phá trong môi trường thưởng thưa thớt (Florensa et al, 2017;. Heess et al, 2016.). Tuy
nhiên, học một hệ thống phân cấp là khó khăn và có học chương trình đào tạo thường yêu cầu hoặc
subgoals thiết kế bằng tay (Kulkarni et al., 2016). Trong tác phẩm này, chúng tôi thảo luận về một chiến
lược thăm dò chung mà không phụ thuộc vào thiết kế của chính sách và áp dụng đối với bất kỳ kiến trúc,
2
Đồng thời với tác phẩm này, Pathak et al. (2017) đề xuất sử dụng tiền thưởng thăm dò được
đào tạo discriminatively bằng cách học tính năng nhà nước mà được đào tạo để dự đoán
hành động từ cặp chuyển trạng thái. Sau đó được đưa ra một trạng thái và hành động, mô
hình của họ dự đoán các tính năng của nhà nước tới và tiền thưởng được tính từ lỗi dự đoán.
Ngược lại với phương pháp của chúng tôi, công việc đồng thời điều này không cố gắng để
cung cấp một mô hình xác suất của sự mới lạ và không thực hiện bất kỳ loại ước lượng mật
độ ngầm. Kể từ khi phương pháp của họ biết một mô hình động lực học ngược, nó không
cung cấp cho bất kỳ cơ chế để xử lý sự kiện cuốn tiểu thuyết mà không tương quan với hành
động của đại lý, mặc dù nó không thành công trong việc tránh sự cần thiết cho mô hình sinh
sản.
3 sự dự bị
Trong bài báo này, chúng ta xem xét một quá trình quyết định Markov (MDP), được xác định bởi
các tuple (S; A; T; R;; 0). S; Một là không gian trạng thái và hành động, tương ứng. T phân phối
0
chuyển tiếp (s ja; s), phân phối trạng thái ban đầu0(S), và chức năng thưởng R (s; a) chưa được
biết trong tăng cường học tập (RL) thiết lập và chỉ có thể được truy vấn thông qua tương tác với
MDP. Mục tiêu của
học tập củng cố-ment là để tìm ra chính sách tối ưu nhằm tối đa hóa tổng
QT
dự thưởng chiết khấu, = arg max E [
một quỹ đạo (s0; một0; :::ST; mộtT )
t=0
và
() =
0 (S 0 )
tt
(một js ) T (s
PTt = 0 t
R (st; mộtt)]; ở đâu, biểu thị
t + 1jst ; m ộtt) . thí nghi ệm c ủa c hún g tôi đán h giá nhiệ m vụ nhiề u tậ p với m ột
Gradient chính sách thuật toán RL, mặc dù phần mở rộng để thiết lập đường chân trời
vô hạn hoặc các thuật toán khác, chẳng hạn như Q-learning và diễn viên-nhà phê bình,
là đơn giản.
thuật toán thăm dò đếm dựa trên duy trì một số nhà hoạt động thăm viếng N (s; a), và khuyến khích các
đại lý đến thăm các quốc gia hiếm thấy, hoạt động trên nguyên tắc của sự lạc quan dưới không chắc
chắn. Điều này thường được thực hiện bằng cách thêm một tiền thưởng phần thưởng cho quý khách
đến thăm quốc gia hiếm. Ví dụ, MBIE-EB (Strehl
p
& Littman, 2009) sử dụng một phần thưởng của = N (s; a), mà là một hằng số, và BEB (Kolter &
Ng, 2009) sử dụng a = (N (s; a) + JSJ). Trong không gian trạng thái và hành động hữu hạn, những
phương pháp này PAC-MDP (ví MBIE-EB) hoặc PAC-BAMDP (ví BEB), xấp xỉ có nghĩa là đại lý
hoạt động dưới mức tối ưu cho chỉ có một số đa thức bước. Trong các lĩnh vực mà đếm rõ ràng là
không thực tế, giả đếm có thể được sử dụng dựa trên ước tính mật độ p (s; a) (. Bellemare et al,
2016), thường được thực hiện bằng một số loại mô hình ước lượng mật độ đào tạo generatively.
Chúng tôi sẽ mô tả cách chúng ta có thể ước tính mật độ sử dụng phân loại chỉ được đào tạo
discriminatively, tiếp theo là một cuộc thảo luận về cách ước lượng tiềm ẩn này có thể được kết
hợp vào một pseudo-count phương pháp thưởng mới lạ.
4 Các mô hình mẫu mực và Mật độ Ước
Chúng tôi bắt đầu bằng việc mô tả mô hình phân biệt đối xử của chúng tôi sử dụng để dự đoán sự
mới lạ của các quốc gia truy cập trong đào tạo. Chúng tôi nhấn mạnh một mối liên hệ giữa hình
thức đặc biệt của phân biệt mô hình và mật độ ước lượng, và tại Mục 5 mô tả làm thế nào để sử
dụng mô hình này để tạo tiền thưởng phần thưởng.
4.1 Các mô hình mẫu mực
Để tránh sự cần thiết của mô hình generative rõ ràng, phương pháp ước lượng sự mới lạ của
chúng tôi sử dụng mô hình mẫu mực. Với một tập dữ liệu X = fx1; ::: xng, một mô hình mẫu mực
bao gồm một tập của n phân loại hoặc discriminators FDx1; :::: Dxng, một cho mỗi điểm dữ liệu. Mỗi
phân biệt cá nhân Dxtôi được huấn luyện để phân biệt một đơn dương tính điểm dữ liệu xtôi, Các
“mẫu mực”, từ các điểm khác trong tập dữ liệu X. Chúng ta mượn thuật ngữ “mô hình mẫu mực” từ
Malisiewicz et al. (2011), trong đó đặt ra thuật ngữ “Bản SVM” để chỉ một mô hình tuyến tính đặc
biệt được đào tạo để phân loại từng trường hợp chống lại tất cả những người khác. Tuy nhiên, để
kiến thức của chúng tôi, công việc của chúng tôi là người đầu tiên áp dụng ý tưởng này để thăm dò
cho học tăng cường. Trong thực tế, chúng tôi tránh sự cần thiết để đào tạo phân loại n riêng biệt
bằng cách phân bổ thông qua một mạng mẫu mực lạnh duy nhất, như đã thảo luận trong Phần 6.
Hãy PX (X) biểu thị sự phân bố dữ liệu trên X, và để cho Dx(X): X! [0; 1] biểu thị phân biệt gắn liền
với khuôn x. Để có được ước tính mật độ đúng, như đã thảo luận trong phần tiếp theo, chúng tôi
trình bày từng phân biệt với một tập dữ liệu cân bằng, nơi một nửa trong số các dữ liệu bao gồm
các ví dụ điển hình x và một nửa xuất phát từ sự phân bố nền PX(X). sau đó mỗi phân biệt được
huấn luyện để mô hình một Bernoulli phân phối Dx(X) = P (x = x jx) thông qua khả năng tối đa. Lưu
ý rằng nhãn x = x là ồn ào, vì dữ liệu đó là cực kỳ tương tự hoặc giống hệt nhau để x cũng có thể
xảy ra trong việc phân phối nền PX (X), do đó phân loại không phải lúc nào đầu ra 1. Để đạt được
3
giải pháp maximum likelihood, bộ phân biệt được huấn luyện để tối ưu hóa mục tiêu
cross-entropy sau
Dx = Arg max (E x [log D (x)] + EPX [Đăng nhập 1 D (x)]):
(1)
D2D
Chúng tôi thảo luận về phương pháp khấu hao thực tế rằng tránh sự cần thiết để đào tạo n
discriminators tại Mục 6, nhưng để giữ cho nguồn gốc trong phần này đơn giản, chúng ta xem xét
discriminators độc lập cho bây giờ.
4.2 Các mô hình mẫu mực như ước tính mật độ Implicit
Để hiển thị như thế nào mô hình mẫu mực có thể được sử dụng để ước lượng mật độ
ngầm, chúng ta bắt đầu bằng cách xem xét một vô cùng mạnh mẽ, phân biệt tối ưu, mà
chúng có thể làm cho một kết nối rõ ràng giữa bộ phân biệt và cơ bản phân phối dữ liệu
PX (X):
Dự luật 1. (Optimal phân biệt) Đối với một phân phối P rời rạcX (X), bộ phân biệt D tối ưux cho x
thỏa mãn mẫu mực
Dx (X) =
x (X)
và
Dx (X) =
1
:
1 + PX (X)
x (X) + PX (X)
Bằng chứng. Các bằng chứng thu được bằng cách lấy đạo hàm của sự mất mát trong
phương trình. (1) Đối với D (x) với, đặt nó vào không, và giải quyết cho D (x).
Nó sau đó, nếu bộ phân biệt là tối ưu, chúng tôi có thể phục hồi khả năng của một điểm
dữ liệu PX (X) bằng cách đánh giá bộ phân biệt tại x ví dụ điển hình của riêng mình, theo
Dx (X)
1
(2)
:
Dx (X)
Đối với lĩnh vực liên tục, x(X)! 1, vì vậy D (x)! 1. Điều này có nghĩa chúng tôi không thể phục
hồi PX(X) thông qua phương trình. (2). Tuy nhiên, chúng ta có thể mịn vùng đồng bằng bằng
cách thêm tiếng ồn q () để x ví dụ điển hình trong đào tạo, cho phép chúng tôi để phục hồi
ước tính mật độ chính xác bằng cách giải quyết cho PX(X). Ví dụ, nếu chúng ta để cho q = N
(0;2I), sau đó bộ phân biệt tối ưu đánh giá tại x thỏa mãn Dx (X) =
P (X) =
X
h
p
tôi
1 = 2 2d =
h1 =p2 2d
tôi. Thậm chí nếu chúng ta không biết phương sai nhiễu, chúng
+ PX (X)
tôi có
1 Dx (X)
P (X)
X
Dx (X)
/
:
(3)
tỉ lệ này giữ cho bất kỳ q tiếng ồn càng lâu càng ( xq) (x) (trong đó biểu thị chập) là như nhau
cho tất cả các x. Tiền thưởng phần thưởng chúng tôi mô tả tại mục 5 là bất biến để các yếu tố bình
thường, vì vậy ước tính tỷ lệ là đủ.
Trong thực tế, chúng ta có thể lấy ước tính mật độ đó là phù hợp hơn để thăm dò bằng cách giới thiệu
trơn tru-ing, trong đó bao gồm việc thêm tiếng ồn để phân phối của nền PX , Để sản xuất các ước lượng
(x
Dx (x) =
(
x
q) (x)
q) (x) + (PX q) (x):
Sau đó chúng tôi thu hồi ước tính mật độ của chúng tôi như (PXq) (x). Trong trường hợp
khi PXlà tập hợp các hàm delta xung quanh các điểm dữ liệu, điều này tương đương với
hạt nhân ước tính mật độ sử dụng phân phối của tiếng ồn như một hạt nhân. Với
Gaussian q tiếng ồn = N (0;2I), điều này tương đương với việc sử dụng một hạt nhân
RBF.
4.3 Không gian tiềm ẩn mượt giống với Discriminators ồn ào
Trong phần trước, chúng ta đã thảo luận cách thêm tiếng ồn có thể cung cấp cho các ước tính mật
độ Smooth, đó là đặc biệt quan trọng trong không gian phức tạp hoặc liên tục, nơi mà tất cả các
quốc gia có thể được Distin-guishable với một phân biệt đủ mạnh. Thật không may, đối với các
quốc gia chiều cao, chẳng hạn như hình ảnh, thêm tiếng ồn trực tiếp với nhà nước thường không
sản xuất tiểu bang mới có ý nghĩa, vì sự phân bố của các quốc gia nằm trên một đa dạng mỏng, và
bất kỳ tiếng ồn được thêm vào sẽ nâng tình trạng ồn ào tắt của đa dạng này . Trong phần này,
chúng tôi thảo luận về cách chúng ta có thể học được phân phối làm mịn bằng cách tiêm tiếng ồn
vào một không gian tiềm ẩn học, chứ không phải thêm nó vào các trạng thái ban đầu.
4
Chính thức, chúng tôi giới thiệu một biến tiềm ẩn z. Chúng tôi muốn đào tạo một q phân phối
encoder (ZJX), và một p tiềm ẩn không gian phân loại (yjz) = D (z)y(1 D (z))1 y, Nơi y = 1 khi x
= x và y = 0 khi
x 6 = x. Chúng tôi bổ sung quy tắc chia phân phối của tiếng ồn đối với một p phân phối trước (z),
trong đó
trong trường hợp của chúng tôi là một đơn
vị Gaussian. Cho p (x) =
1
2
1
x (X) +
pX (X) biểu thị việc đào tạo cân bằng
2
e
phân phối từ trước, chúng ta có thể tìm hiểu những không gian tiềm ẩn bằng cách
tối đa hóa mục tiêu
(4)
py z ; QZ x Ep[EqZJ X [l og p ( yjz)] DKL(Q (ZJX) jj p (z))] :
max
e
jj
Bằng trực giác, mục tiêu này sẽ tối ưu hóa phân phối của tiếng ồn để phát huy tối đa độ chính xác
phân loại trong khi truyền càng ít thông tin thông qua các không gian tiềm ẩn càng tốt. Điều này
làm z để chỉ nắm bắt được các yếu tố của sự thay đổi trong x có nhiều thông tin nhất đối với phân
biệt điểm từ mẫu mực, dẫn đến tiếng ồn mà vẫn trên đa dạng trạng thái. Ví dụ, trong lĩnh vực Atari,
tiềm ẩn tiếng ồn không gian có thể tương ứng với làm mịn trên vị trí của các cầu thủ và di chuyển
các đối tượng trên màn hình, trái ngược với biểu diễn pixel khôn ngoan làm mịn Gaussian.
xx (X) q (ZJX) dx và q (zjy = 0) = x pX (X) q (ZJX) dx biểu thị
Cho q (zjy = 1) =
ized tích cực và
marginal-
mật đ ộ tiê u cực tr ong khô ng gi an tiề m ẩ n, ch úng ta c ó th ể đặc trưn g ph ân bi ệt t ối ưu
R
R
và phân phối encoder như sau. Đối với bất kỳ q encoder (ZJX), tối ưu phân biệt D (z) thỏa mãn:
q (zjy = 1)
p (y = 1jz) = D (z) =
q (zjy = 1) + q (zjy = 0)
và đối với bất kỳ phân biệt D (z), sự phân bố encoder đáp ứng tối ưu:
q (ZJX) / D (z)ymềm mại(X)(1
nơi ymềm mại(X) = p (y = 1jx)
=
x (X)
x (X) + pX (X)
D(z))1
y
(X)
mềm mại
p (z)
;
;
là nhãn trung bình của x. Đây có thể được thu
được bằng cách
phân biệt mục tiêu, và đầy đủ nguồn gốc được bao gồm trong Phụ lục A.1. Bằng trực giác, q (ZJX)
bằng với p trước (z) theo mặc định, có thể mang theo không có thông tin về x. Sau đó nó quy mô
lên xác suất trên mã tiềm ẩn z nơi bộ phân biệt là tự tin và chính xác. Để khôi phục một ước tính
mật độ, chúng tôi ước tính D (x) = Eq[D (z)] và áp dụng phương trình. (3) để có được mật độ.
4.4 Làm mịn từ dưới mức tối ưu Discriminators
Trong Mục từ trước của chúng tôi, chúng tôi giả định một, phân biệt tối ưu vô cùng mạnh mẽ mà
có thể phát ra một giá trị D khác nhau (x) cho mỗi đầu vào x. Tuy nhiên, đây là thường không thể
ngoại trừ lĩnh vực nhỏ, đếm được. Một nguồn tin thứ cấp nhưng quan trọng của mật độ mịn xảy ra
khi bộ phân biệt có khó khăn phân biệt hai trạng thái x và x0. Trong trường hợp này, bộ phân biệt
sẽ trung bình so với kết quả đầu ra của bộ phân biệt vô cùng mạnh mẽ. Hình thức làm mịn đến từ
thiên kiến quy nạp của bộ phân biệt, đó là khó khăn để định lượng. Trong thực tế, chúng ta thường
tìm thấy hiệu ứng này có lợi cho mô hình của chúng tôi chứ không phải là có hại. Một ví dụ về ước
tính mật độ mịn như được thể hiện trong hình 2. Do hiệu ứng này, thêm tiếng ồn là không thực sự
cần thiết để được hưởng lợi từ mịn, mặc dù nó cung cấp để kiểm soát tốt hơn đáng kể so với mức
độ mịn.
5 EX2: Thăm dò với Models Exemplar
Bây giờ chúng ta có thể mô tả thuật toán thăm dò của chúng tôi dựa trên các mô hình mật độ ngầm. Giả
cho một biến thể tìm kiếm chính sách hàng loạt sử dụng mô hình mẫu mực duy nhất được thể hiện trong
thuật toán 1. Online biến thể cho các thuật toán RL khác, chẳng hạn như Q-learning, cũng có thể. Để áp
dụng những ý tưởng từ thăm dò đếm dựa trên mô tả trong phần 3, chúng ta phải xấp xỉ đếm thăm viếng
nhà nước N (s) = NP (s), trong đó P (s) là phân phối qua các quốc gia truy cập trong đào tạo. Lưu ý rằng
chúng ta có thể dễ dàng sử dụng nhà nước-action đếm N (s; a), nhưng chúng ta bỏ qua các hành động
đơn giản của ký hiệu. Để tạo mẫu xấp xỉ từ P (s), chúng tôi sử dụng một replay đệm B, mà là một (FIFO)
hàng đợi đầu tiên trong lần đầu tiên ra rằng giữ trạng thái truy cập trước đó. mẫu mực của chúng tôi là
các tiểu bang chúng tôi muốn ghi bàn, đó là những tiểu bang ở hàng loạt hiện hành của quỹ đạo.
Căn cứ vào sản lượng từ discriminators đào tạo để tối ưu hóa phương trình (1), chúng
tôi làm tăng thêm phần thưởng với một chức năng của “mới lạ” của nhà nước (trong đó
là một hyperparameter có thể được điều chỉnh để độ lớn của phần thưởng nhiệm vụ):
R0(S; a) = R (s; a) + f (DS(S)):
5
Thuật toán 1 EX2 để tối ưu hóa chính sách hàng loạt
1: Khởi phát lại đệm B
2: cho lặp i trong {1,. . . , N} làm
3:
Mẫu quỹ đạo f jg từ chính sách tôi
4:
cho s nhà nước trong fg làm
5:
Mẫu một loạt âm fs0kg từ B.
6:
7:
Train phân biệt DSđể giảm thiểu Eq. (1) với s tích cực, và âm fs0kg.
Tính thưởng R0(S; a) = R (s; a) + f (DS(S))
kết thúc cho
Cải tiến tôi Đối với R với0(S; a) sử dụng bất kỳ phương pháp tối ưu hóa chính sách.
BB [f tôig
11: kết thúc cho
8:
9:
10:
Trong thí nghiệm của chúng tôi, chúng tôi sử dụng heuristic log thưởng p (s), do thực tế rằng hằng số
bình thường trở nên hấp thụ bởi đường cơ sở được sử dụng trong thuật toán RL điển hình. Đối với lĩnh
vực riêng biệt, chúng tôi cũng có thể sử dụng một
p
đếm dựa trên 1 = N (s) (Tang et al., 2017), trong đó N (s) = NP (s), và n là kích thước của replay
đệm B. Một bản tóm tắt của EX2 cho một lô chung tăng cường học được thể hiện trong thuật toán
1.
6 mô hình kiến trúc
Để xử lý những quan sát phức tạp như hình ảnh, chúng tôi triển khai mô hình mẫu mực
của chúng tôi sử dụng các mạng thần kinh, với các mô hình xoắn sử dụng cho các tên
miền dựa trên hình ảnh. Để giảm chi phí tính toán của huấn luyện phân loại lớn như vậy
mỗi mẫu mực, chúng tôi khám phá hai phương pháp khấu hao việc tính toán trên nhiều
ví dụ.
6.1Amortized Multi-Exemplar mẫu
Thay vì đào tạo một phân loại riêng biệt cho từng mẫu mực, chúng tôi thay vì có thể đào tạo một
mô hình duy nhất đó là lạnh vào x ví dụ điển hình. Khi sử dụng việc xây dựng không gian tiềm ẩn,
chúng tôi đặt điều kiện p tiềm ẩn không gian phân biệt (yjz) trên một phiên bản được mã hóa của x
do q (z jx), kết quả trong một phân loại đối với hình thức p (yjz; z) = D (z; z )y(1 D (z; z))1 y. Ưu
điểm của mô hình khấu hao này là nó không đòi hỏi chúng ta phải đào tạo discriminators mới từ
đầu tại mỗi lần lặp, và cung cấp một mức độ tổng quát để ước lượng mật độ tại các quốc gia mới.
Một sơ đồ của kiến trúc này được hiển thị trong Hình 1. Kiến trúc khấu hao có sự xuất hiện của
một toán tử so sánh: nó được huấn luyện để đầu ra 0 khi x 6 = x, và các giá trị phân biệt tối ưu
được đề cập trong phần 4 khi x = x, tùy thuộc vào mịn áp đặt bởi tiếng ồn không gian tiềm ẩn.
6.2K-Exemplar mẫu
Chừng nào việc phân phối các ví dụ tích cực được biết đến, chúng tôi có thể phục hồi ước tính mật
độ qua Eq. (3). Do đó, chúng tôi cũng có thể xem xét một loạt các hình mẫu x1; :::; xKVà mẫu từ
đợt này thống nhất trong đào tạo. Chúng tôi đề cập đến mô hình này là mô hình "K-Exemplar", cho
phép chúng ta suy suôn sẻ giữa một mô hình mạnh mẽ hơn với một phân biệt mỗi trạng thái (K = 1)
với một mô hình yếu có sử dụng một phân biệt duy nhất cho tất cả các nước (K = bang #). Một
cuộc thảo luận chi tiết hơn về phương pháp này được bao gồm trong Phụ lục A.2. Trong thí nghiệm
của chúng tôi, chúng tôi hàng loạt các quốc gia lân cận trong một quỹ đạo vào bộ phân biệt cùng
tương ứng với một hình thức chính quy thời gian mà giả định rằng các quốc gia lân cận trong thời
gian tương tự. Chúng tôi cũng chia sẻ phần lớn lớp giữa discriminators trong mạng thần kinh tương
tự như (Osband et al., 2016), và chỉ cho phép các lớp tuyến tính chính thức thay đổi giữa
discriminators, mà buộc các lớp chia sẻ để học một đại diện tính năng doanh, tương tự như mô
hình khấu hao. Một kiến trúc ví dụ được trình bày trong Hình 1.
6.3 Mối quan hệ với Generative Adverserial Networks (Gans)
thuật toán thăm dò của chúng tôi có một giải thích thú vị liên quan đến Gans (Goodfellow et al.,
2014). Chính sách này có thể được xem như là các máy phát điện của một GAN, và mô hình mẫu
mực đóng vai trò như bộ phân biệt, mà là cố gắng để phân loại các quốc gia từ hàng loạt hiện hành
của quỹ đạo chống trước
6
a) Kiến trúc khấu hao
b) K-Exemplar Kiến trúc
Hình 1: Một sơ đồ của một của chúng tôi) khấu hao theo kiến trúc mô hình và b) cấu trúc
mô hình K-ví dụ điển hình. Tiếng ồn được tiêm sau khi các mô-đun mã hóa (a) hoặc sau
khi các lớp chia sẻ (b). Mặc dù có thể, chúng tôi không buộc các bộ mã hóa (a) trong các
thí nghiệm của chúng tôi.
tiểu bang. Sử dụng phiên bản K-mẫu mực của thuật toán của chúng tôi, chúng ta có thể đào
tạo một phân biệt duy nhất cho tất cả các nước trong lô hiện tại (chứ không phải là một cho
mỗi tiểu bang), trong đó phản ánh thiết lập GAN.
Trong Gans, máy phát điện đóng một trò chơi adverserial với bộ phân biệt bằng cách cố gắng để
tạo ra mẫu không thể phân biệt để đánh lừa bộ phân biệt. Tuy nhiên, trong thuật toán của chúng
tôi, các máy phát điện được khen thưởng vì đã giúp bộ phân biệt chứ không phải lừa nó, vì vậy
thuật toán của chúng tôi chơi một trò chơi hợp tác thay vì một người adverserial. Thay vào đó, họ
đang cạnh tranh với sự tiến triển của thời gian: là trạng thái lạ trở nên ghé thăm thường xuyên, bộ
đệm phát lại sẽ trở nên bão hòa với trạng thái đó và nó sẽ mất tính mới của nó. Khách sạn này là
mong muốn ở chỗ nó buộc các chính sách để liên tục tìm kiếm các quốc gia mới mà từ đó để nhận
tiền thưởng thăm dò.
7 Đánh giá thực nghiệm
Mục đích của việc đánh giá thực nghiệm của chúng tôi là để so sánh EX2phương pháp để cả một
chiến lược thăm dò ngây thơ và gần đây để đề xuất phương án thăm dò để gia cố sâu học tập dựa
trên mô hình mật độ rõ ràng. Chúng tôi trình bày kết quả trên cả hai nhiệm vụ chuẩn thấp chiều sử
dụng trong công việc trước đây, và về nhiệm vụ dựa trên tầm nhìn phức tạp hơn, nơi mà các
phương pháp thăm dò thưởng mật độ dựa trên trước rất khó để áp dụng. Chúng tôi sử dụng TRPO
(Schulman et al., 2015) để tối ưu hóa chính sách, bởi vì nó hoạt động trên cả hai không gian hoạt
động liên tục và rời rạc, và do vững mạnh tương đối của nó để lựa chọn siêu tham số (Duẩn et al.,
2016). mã của chúng tôi và bổ sung bao gồm các video tài liệu bổ sung sẽ có mặt
tạihttps://sites.google.com/view/ex2exploration.
Nhiệm vụ thực nghiệm thí nghiệm của chúng tôi bao gồm ba nhiệm vụ thấp chiều nhằm đánh giá xem
EX2có thể thực hiện thành công ước ngầm mật độ và tiền thưởng thăm dò máy tính, và bốn nhiệm vụ
dựa trên hình ảnh chiều cao khó khăn nhằm đánh giá liệu ước tính mật độ ngầm cung cấp sự cải thiện
trong các lĩnh vực nơi xây dựng mô hình sinh sản rất khó thay đổi. Nhiệm vụ thấp chiều đầu tiên là một
2D mê cung liên tục với một hàm thưởng thưa thớt mà chỉ cung cấp một phần thưởng khi nhân viên là
trong vòng bán kính nhỏ của đối phương. Bởi vì nhiệm vụ này là 2D, chúng ta có thể sử dụng nó để trực
tiếp hình mật độ thăm viếng nhà nước và so sánh với một phương pháp biểu đồ ràng buộc trên cho ước
lượng mật độ. Hai nhiệm vụ thấp chiều khác là nhiệm vụ chuẩn từ OpenAI bộ phòng tập thể dục chuẩn,
SparseHalfCheetah và SwimmerGather, trong đó cung cấp cho một so sánh với công việc trước khi vào
tiền thưởng thăm dò sinh sản trong sự hiện diện của phần thưởng thưa thớt.
Đối với các nhiệm vụ dựa trên tầm nhìn, chúng tôi bao gồm ba trò chơi Atari, cũng như một nhiệm vụ
chuyển hướng khó khăn hơn nhiều cái tôi làm trung tâm dựa trên vizDoom (DoomMyWayHome +). Các
trò chơi Atari được bao gồm cho dễ dàng so sánh với các phương pháp trước dựa trên mô hình
generative, nhưng không cung cấp quan sát trực quan đặc biệt khó khăn, kể từ khi hình ảnh 2D sạch và
đa dạng hình ảnh tương đối thấp của những công việc làm người mẫu sinh sản dễ dàng. Trong thực tế,
công việc trước khi vào dự đoán video cho trò chơi Atari dễ dàng đạt dự đoán chính xác hàng trăm
khung hình trong tương lai (Oh et al., 2015), trong khi dự đoán video trên hình ảnh tự nhiên đang thách
thức thậm chí một vài khung hình trong tương lai (Mathieu et al ., 2015). Các vizDoom mê cung hướng
nhiệm vụ được thiết kế để cung cấp một so sánh với các phương pháp trước với các quan sát đáng kể
khó khăn hơn: các trò chơi có quan điểm người thứ nhất, hình ảnh 3D, và khả năng quan sát một phần,
cũng như những thách thức thường gắn liền với những phần thưởng thưa thớt. Chúng tôi làm nhiệm vụ
đặc biệt khó khăn bằng cách khởi tạo các đại lý trong phòng xa nhất từ vị trí mục tiêu,
7
b) Thực
c) khác nhau
a) Exemplar
nghiệm
Smoothing
Hình 2: a, b) Minh hoạ mật độ ước tính trên 2D
mê cung nhiệm vụ sản xuất theo mô hình của chúng tôi (a), so
với empiriHình 3: Ví dụ về việc hình ảnh.
cal rời rạc hóa phân phối (b). Phương pháp của chúng tôi cung Từ trên xuống dưới, từ trái qua
cấp hợp lý,
phải:
Bản đồ của MyWayHome
hơi vuốt ước tính mật độ. c) ước tính mật độ thân
Doom,
duced với ước lượng mật độ ngầm của chúng tôi trên một
nhiệm vụ (mục tiêu là màu xanh
tập dữ liệu đồ chơi (hàng đầu
lá cây, bắt đầu là màu xanh),
trái), với sự gia tăng số lượng của tiếng ồn quy tắc.
Venture, HalfCheetah.
đòi hỏi phải có nó để điều hướng qua 8 phòng trước khi đạt được mục tiêu. hình ảnh mẫu lấy từ một số
các nhiệm vụ được thể hiện trong hình 3 và mô tả công việc chi tiết được trình bày trong Phụ lục A.3.
Chúng tôi so sánh hai biến thể của phương pháp của chúng tôi (K-ví dụ điển hình và khấu
hao) để chuẩn ngẫu nhiên cựu ploration, ước lượng mật độ hạt nhân (KDE) với hạt nhân
RBF, một phương pháp dựa trên mạng mô hình generative thần kinh Bayes gọi VIME
(Houthooft et al., 2016 ), và tiền thưởng dựa trên thăm dò băm không gian tiềm ẩn đã học qua
một autoencoder (Tang et al., 2017).
2D Mê On thoát khỏi mê cung 2D, chúng tôi trực quan có thể so sánh mật độ nhà nước ước lượng từ mô
hình mẫu mực của chúng tôi và sự phân bố nhà thăm viếng thực nghiệm lấy mẫu từ bộ đệm phát lại, như
thể hiện trong hình 2. mô hình của chúng tôi tạo ra ước tính mật độ hợp lý mà mịn ra sự thật phân phối
thực nghiệm. Để đạt hiệu quả thăm dò, thể hiện trong Bảng 1, TRPO với thăm dò Gaussian không thể
tìm thấy mục tiêu thưởng thưa thớt, trong khi cả hai biến thể của phương pháp của chúng tôi hoạt động
tương tự VIME và KDE. Kể từ khi chiều của nhiệm vụ là thấp, chúng tôi cũng sử dụng một phương pháp
biểu đồ dựa trên ước tính mật độ, cung cấp một trên ràng buộc về việc thực hiện thăm dò đếm dựa trên
nhiệm vụ này.
Kiểm soát liên tục: SwimmerGather và SparseHalfCheetah SwimmerGather và SparseHalfCheetah
là hai nhiệm vụ kiểm soát liên tục thách thức bởi Houthooft et al đề xuất. (2016). Cả hai môi trường
đặc trưng thưởng thưa thớt và quan sát vừa chiều (33 và 20 kích thước tương ứng).
SwimmerGather là một nhiệm vụ thứ bậc trong đó không có các thuật toán trước đó sử dụng thăm
dò ngây thơ đã thực hiện bất kỳ sự tiến bộ. kết quả của chúng tôi chứng minh rằng, ngay cả trên
các nhiệm vụ vừa chiều nơi mô hình generative rõ ràng nên thực hiện tốt, tiềm ẩn phương pháp
ước lượng mật độ của chúng tôi đạt được kết quả cạnh tranh. EX2, VIME, và Băm tốt hơn đáng kể
các thuật toán ngây thơ TRPO và KDE trên SwimmerGather, và được phân bổ EX2nhanh hơn so
với tất cả các phương pháp khác về thưa thớt-HalfCheetah bằng lãi đáng kể. Điều này cho thấy
rằng các ước tính mật độ ngầm thu được bằng phương pháp của chúng tôi cung cấp cho tiền
thưởng thăm dò mà có thể cạnh tranh với một loạt các kỹ thuật ước lượng mật độ rõ ràng.
Image-Based Control: Atari và Doom Trong tập cuối cùng của chúng ta về các thí nghiệm, chúng tôi kiểm
tra khả năng của các thuật toán của chúng tôi để mở rộng quy mô để đầu vào cảm giác phong phú và
không gian nhà nước dựa trên hình ảnh chiều cao. Chúng tôi chọn một số trò chơi Atari có thưởng thưa
thớt và trình bày một thách thức thăm dò, cũng như một chuẩn mực mê cung navigation dựa trên
vizDoom. Mỗi miền thể hiện một bộ duy nhất của những thách thức. Tên miền vizDoom chứa những hình
ảnh thực tế nhất, và môi trường được nhìn từ một góc độ ích kỷ mà làm cho xây dựng động lực học mô
hình khó khăn và tăng tầm quan trọng của làm mịn thông minh và khái quát. Các trò chơi Atari (Freeway,
tê cóng, Venture) chứa các hình ảnh đơn giản từ một người thứ ba quan điểm, nhưng thường chứa
nhiều chuyển động, các đối tượng phụ tá rằng một mô hình mật độ phải khái quát đến. Freeway và
Venture chứa thưởng thưa thớt,
kết quả của chúng tôi chứng minh rằng EX2có khả năng tạo ra hành vi thăm dò mạch lạc thậm chí
môi trường thị giác chiều cao, phù hợp với các phương pháp trước khi hoạt động tốt nhất trên các
trò chơi Atari. Về nhiệm vụ khó khăn nhất, DoomMyWayHome +, phương pháp của chúng tôi vượt
xa tất cả các trước
số 8
K-Ex.
Bài tập
(Chúng ta)
2D Mê
-104,2
SparseHalfCheetah
3,56
SwimmerGather
0,228
Freeway (Atari)
Tê cóng (Atari)
Venture (Atari)
DoomMyWayHome
0,740
1Houthooft et al. (2016)
Amor.
(Chúng ta)
-132,2
173,2
0,240
33.3
4901
900
0,788
2Schulman et al. (2015)
VIME1 TRPO2 băm3
-135,5 -175,6
98,0
0
0,5
0,196
0
0.258
16.5
33,5
2869
5214
121
445
0,443
0,250
0,331
KDE
-117,5
0
0,098
0,195
Biểu đồ
-69,6
-
3Tang et al. (2017)
Bảng 1: (. Houthooft et al, 2016) điểm trung bình (cao hơn là tốt hơn) của thuật toán của chúng tôi
(cả K-ví dụ điển hình và khấu hao) so với VIME, TRPO ban đầu, băm, và ước lượng mật độ hạt
nhân (KDE). Cách tiếp cận của chúng tôi nói chung phù hợp với việc thực hiện các phương pháp
ước lượng mật độ rõ ràng trước và vượt cao trình diễn của họ trên DoomMyWayHome + nhiệm vụ
đầy thử thách, có tính năng chuyển động camera, khả năng quan sát một phần, và phần thưởng vô
cùng thưa thớt. Chúng tôi không chạy VIME hoặc K-Exemplar trên các trò chơi Atari do chi phí tính
toán. trò chơi Atari được đào tạo cho 50 M bước thời gian. đường cong học tập có trong Phụ lục
A.5
kỹ thuật thăm dò, và có khả năng hướng dẫn các đại lý thông qua nhiều phòng đến mục
tiêu. Kết quả này cho thấy lợi ích của việc ước lượng mật độ ngầm: trong khi ước lượng
mật độ rõ ràng có thể đạt được kết quả tốt trên đơn giản, hình ảnh sạch trong các trò
chơi Atari, họ bắt đầu đấu tranh với các quan sát egocentric phức tạp hơn trong
vizDoom, trong khi EX của chúng tôi2 có thể cung cấp ước tính mật độ hợp lý và đạt
được kết quả tốt.
số 8
Kết luận và tương lai làm việc
Chúng tôi trình bày EX2, Một chiến lược thăm dò khả năng mở rộng dựa trên mô hình đào tạo mẫu
mực phân biệt gán tiền thưởng mới lạ. Chúng tôi cũng chứng minh một kết nối mới giữa các mô
hình mẫu mực và ước lượng mật độ, mà thúc đẩy các thuật toán của chúng tôi như xấp xỉ thăm dò
giả đếm. kỹ thuật ước lượng mật độ này cũng không đòi hỏi xây dựng lại mẫu để đào tạo, không
giống như hầu hết các phương pháp sinh sản đào tạo hoặc các mô hình năng lượng dựa trên. kết
quả thực nghiệm của chúng tôi cho thấy rằng EX2có xu hướng để đạt được kết quả tương đương
với nhà nước-of-the-art trước cho các nhiệm vụ kiểm soát liên tục trên môi trường thấp chiều, và có
thể mở rộng một cách duyên dáng để xử lý đầu vào cảm giác phong phú như hình ảnh. Kể từ khi
phương pháp của chúng tôi tránh sự cần thiết cho mô hình sinh sản của các quan sát dựa trên
hình ảnh phức tạp, nó vượt quá hiệu suất của phương pháp trước khi sinh sản trên các lĩnh vực
với các chức năng quan sát phức tạp hơn, chẳng hạn như việc chuyển hướng ích kỷ Doom.
Để hiểu được sự cân bằng giữa các mô hình mẫu mực đào tạo discriminatively và sinh sản modEling, nó giúp để xem xét hành vi của hai phương pháp khi overfitting hoặc underfitting. Cả hai
phương pháp này sẽ gán thưởng phẳng khi underfitting và tiền thưởng cao cho tất cả các quốc gia
mới khi overfitting. Tuy nhiên, trong trường hợp của mô hình mẫu mực, overfitting rất dễ dàng với
các quan sát chiều cao, đặc biệt trong mô hình khấu hao nơi mạng chỉ đơn giản đóng vai trò như
một so sánh. Underfitting cũng rất dễ dàng để đạt được, chỉ đơn giản bằng cách tăng cường độ
của tiếng ồn tiêm vào không gian tiềm ẩn. Do đó, mặc dù cả hai cách tiếp cận có thể bị từ
overfitting và underfitting, phương pháp mẫu mực cung cấp một hyperparameter duy nhất mà nội
suy giữa hai thái cực này mà không thay đổi mô hình. Một đại lộ thú vị cho công việc tương lai sẽ
được điều chỉnh yếu tố làm mịn này tự động, dựa vào lượng dữ liệu có sẵn. Tổng quát hơn, ước
tính mật độ ngầm với các mô hình mẫu mực có khả năng được sử dụng trong các ứng dụng tính
toán mật độ khác, và khám phá các ứng dụng như vậy sẽ khác hướng thú vị cho công việc trong
tương lai.
Lời cảm ơn Chúng tôi xin chân thành cám ơn Adam Stooke, Sandy Huang, và Haoran Tang
cho việc cung cấp mã tìm kiếm chính sách hiệu quả và parallelizable. Chúng tôi cảm ơn
Joshua Achiam để được giúp đỡ với việc thiết lập nhiệm vụ chuẩn. Nghiên cứu này được hỗ
trợ bởi NSF IIS-1614653, NSF IIS-1700696, một giải thưởng Chương trình Điều tra viên ONR
Young, và Berkeley DeepDrive.
9
Tài liệu tham khảo
Abel, David, Agarwal, Alekh, Diaz, Fernando, Krishnamurthy, Akshay, và Schapire,
Robert E. thăm dò dốc thúc đẩy cho tăng cường học tập trong các lĩnh vực phức tạp.
Trong Những tiến bộ trong thần kinh Hệ thống thông tin xử lý (NIPS) năm 2016.
Achiam, Giô-suê và Sastry, Shankar. động lực nội tại Surprise-dựa cho học tăng cường
sâu. Corr, abs / 1703,01732, năm 2017.
Barto, Andrew G. và Mahadevan, Sridhar. Tiến bộ mới trong học tăng cường phân cấp.
Tổ chức sự kiện rời rạc động Systems, 13 (1-2), 2003.
Bellemare, Marc G., Srinivasan, Sriram, Ostrovski, Georg, Schaul, Tom, Saxton, David,
và MUNOS, Remi. thăm dò đếm dựa trên thống nhất và động lực nội tại. Trong Những
tiến bộ trong Informa-tion Hệ thống thần kinh Processing (NIPS) năm 2016.
Brafman, Ronen I. và Tennenholtz, Moshe. R-max - một thuật toán thời gian đa thức chung
cho tăng cường học tập gần như tối ưu. Tạp chí Nghiên cứu Machine Learning (JMLR),
2002.
Bubeck, Sébastien và CESA-Bianchi, Nicolò. Hối tiếc phân tích ngẫu nhiên và
nonstochastic vấn đề chia nhiều nhánh. Các tổ chức và Xu hướngR trong Machine
Learning, 5, 2012.
Chapelle, O. và Li, Lihong. Một đánh giá thực nghiệm lấy mẫu thompson. Trong Những
tiến bộ trong thần kinh Hệ thống thông tin xử lý (NIPS), 2011.
Chentanez, Nuttapong, Barto, Andrew G, và Singh, Satinder P. Intrinsically có động cơ
Rein-forcement Learning. Trong Những tiến bộ trong thần kinh Hệ thống thông tin xử lý
(NIPS). MIT Press, 2005.
Duẩn, Yan, Chen, Xi, Houthooft, Rein, Schulman, John, và Abbeel, Pieter. Điểm chuẩn
tăng cường sâu học tập để kiểm soát liên tục. Trong Hội nghị quốc tế về Machine
Learning (ICML) năm 2016.
Florensa, Carlos Campo, Duẩn, Yan, và Abbeel, Pieter. mạng nơ-ron Stochastic cho học tăng cường
phân cấp. Trong Hội nghị quốc tế về học tập Đại diện (ICLR), năm 2017.
Goodfellow, Ian, Pouget-Abadie, Jean, Mirza, Mehdi, Xu, Bing, Warde-Farley, David,
Ozair, Sherjil, Courville, Aaron, và Bengio, Yoshua. lưới gây tranh cãi Generative.
Trong Những tiến bộ trong thần kinh Hệ thống thông tin xử lý (NIPS). Năm 2014.
Heess, Nicolas, Wayne, Gregory, Tassa, Yuval, Lillicrap, Timothy P., Riedmiller, Martin
A., và Silver, David. Học tập và chuyển giao công điều khiển vận động được điều chế.
Corr, abs / 1610,05182 năm 2016.
Houthooft, Rein, Chen, Xi, Duẩn, Yan, Schulman, John, Turck, Filip Đế, và Abbeel,
Pieter. Vime: Thông tin Variational tối đa hóa thăm dò. Trong Những tiến bộ trong thần
kinh Hệ thống thông tin xử lý (NIPS) năm 2016.
Kakade, Sham, Kearns, Michael, và Langford, John. Thăm dò trong không gian nhà
nước theo hệ mét. Trong Hội nghị quốc tế về Machine Learning (ICML), 2003.
Kearns, Michael và Singh, Satinder. tăng cường gần như tối ưu học tập trong thời gian đa thức.
Machine Learning, 2002.
Kolter, J. Zico và Ng, thăm dò Andrew Y. Gần-Bayes trong thời gian đa thức. Trong Hội
nghị quốc tế về Machine Learning (ICML), 2009.
Kulkarni, Tejas D, Narasimhan, Karthik, Saeedi, Ardavan, và Tenenbaum, Josh. Thứ bậc
sâu tăng cường học tập: Lồng ghép trừu tượng thời gian và động lực nội tại. Trong
Những tiến bộ trong thần kinh Hệ thống thông tin xử lý (NIPS). Năm 2016.
Lillicrap, Timothy P., Hunt, Jonathan J., Pritzel, Alexander, Heess, Nicolas, Erez, Tom, Tassa,
Yuval, Bạc, David, và Wierstra, Daan. kiểm soát liên tục với học tăng cường sâu. Trong Hội
nghị quốc tế về học tập Đại diện (ICLR) năm 2015.
10
Malisiewicz, Tomasz, Gupta, Abhinav, và Efros, Alexei A. Ensemble của mẫu mực-SVMs để
phát hiện đối tượng và xa hơn nữa. Trong Hội nghị quốc tế trên máy tính Vision (ICCV),
2011.
Mathieu, Michaël, Couprie, Camille, và LeCun, Yann. Sâu dự đoán video đa quy mô vượt quá sai
số
toàn
phương
trung
bình.
Corr,
abs
/
1511,05440
năm
2015.
URLhttp://arxiv.org/abs/1511.05440.
Mnih, Volodymyr, Kavukcuoglu, Koray, Bạc, David, Rusu, Andrei A., Veness, Joel,
Bellemare, Marc G., Graves, Alex, Riedmiller, Martin, Fidjeland, Andreas K., Ostrovski,
Georg, Petersen, Stig, Beattie, Charles, Sadik, Amir, Antonoglou, Ioannis, king, Helen,
Kumaran, Dharshan, Wierstra, Daan, Legg, Shane, và Hassabis, Demis. kiểm soát
nhân lực trình độ thông qua học tăng cường sâu. Thiên nhiên, 518 (7540): 529-533, 02
năm 2015.
Oh, Junhyuk, Guo, Xiaoxiao, Lee, Honglak, Lewis, Richard, và Singh, Satinder. dự đoán
phim hành động có điều kiện sử dụng các mạng sâu trong các trò chơi Atari. Trong
Những tiến bộ trong thần kinh Hệ thống thông tin xử lý (NIPS) năm 2015.
Osband, Ian, Blundell, Charles, và Alexander Pritzel, Benjamin Van Roy. thăm dò sâu qua DQN
bootstrapped. Trong Những tiến bộ trong thần kinh Hệ thống thông tin xử lý (NIPS) năm 2016.
Pathak, Deepak, Agrawal, Pulkit, Efros, Alexei A., và Darrell, Trevor. Curiosity-driven thăm dò bằng
cách dự đoán tự giám sát. Trong Hội nghị quốc tế về Machine Learning (ICML), năm 2017.
Pazis, Jason và Parr, Ronald. thăm dò tối ưu pac trong các quá trình ra quyết định không gian Markov liên tục.
Trong Hội nghị AAAI về Trí tuệ nhân tạo (AAAI) năm 2013.
Salimans, Tim, Goodfellow, Ian J., Zaremba, Wojciech, Cheung, Vicki, Radford, Alec, và
Chen, Xi. Cải thiện kỹ thuật cho Gans đào tạo. Trong Những tiến bộ trong thần kinh Hệ
thống thông tin xử lý (NIPS) năm 2016.
Schmidhuber, Jürgen. Một khả năng để thực hiện sự tò mò và sự nhàm chán trong các
bộ điều khiển thần kinh mô hình xây dựng. Trong Kỷ yếu của Hội nghị quốc tế lần thứ
nhất về Mô phỏng các hành vi thích ứng trên từ động vật sang Animats, Cambridge,
MA, USA, 1990. MIT Press. ISBN 0-262-63138-5.
Schulman, John, Levine, Sergey, Moritz, Philipp, Jordan, Michael I., và Abbeel, Pieter. Tin
tưởng tối ưu hóa chính sách khu vực. Trong Hội nghị quốc tế về Machine Learning (ICML)
năm 2015.
Stadie, Bradly C., Levine, Sergey và Abbeel, Pieter. thăm dò các tổn trong tăng cường
học tập với các mô hình dự báo sâu. Corr, abs / 1507,00814 năm 2015.
Stolle, Martin và Precup, Doina. Learning Options trong Cốt Learning. Springer Berlin Heidelberg,
Berlin, Heidelberg, 2002. ISBN 978-3-540-45622-3. doi: 10,1007 / 3-540-45622-8_16.
Strehl, Alexander L. và Littman, phân tích Michael L. An ước tính khoảng dựa trên mô hình
cho quá trình ra quyết định Markov. Tạp chí máy tính và hệ thống khoa học, 2009.
Tang, Haoran, Houthooft, Rein, Foote, Davis, Stooke, Adam, Chen, Xi, Duẩn, Yan, Schulman, John,
Turck, Filip Đế, và Abbeel, Pieter. #exploration: Một nghiên cứu thăm dò đếm dựa cho học tăng cường
sâu. Trong Những tiến bộ trong thần kinh Hệ thống thông tin xử lý (NIPS), năm 2017.
11
Download