ChatGPT* dalam Perspektif Pencarian Kebenaran Saintifik DR. Budi Sulistyo * ChatGPT, GPT-4, dan LLM secara umum 1 Empat kategori teknologi 1. Teknologi untuk meningkatkan kekuatan, ketahanan dan kesiapan fisik manusia. Sebagai contoh: jarum jahit, traktor, sepeda, mobil, pesawat. 2. Teknologi untuk memperluas jangkauan atau sensitifitas indera manusia. Sebagai contoh: mikroskop, amplifier, Geiger counter, teleskop. 3. Teknologi yang digunakan untuk merekayasa alam agar dapat memenuhi kebutuhan atau keinginan kita. Sebagai contoh: jembatan, bendungan, rekayasa genetika, farmasi. 2 Empat kategori teknologi 4. Teknologi intelektual 3 Introduction 4 Bagaimana ChatGPT bekerja? • … tujuan utama ChatGPT adalah menghasilkan "kelanjutan yang masuk akal" dari teks yang ada. Dalam konteks ini, "masuk akal" adalah apa yang dapat seseorang tulis setelah melihat apa yang telah ditulis pada miliaran halaman web, dan lain sebagainya." https://writings.stephenwolfram.com/2023/ 02/what-is-chatgpt-doing-and-why-does-itwork/ • Misalkan kita memiliki teks “The best thing about AI is its ability to …”, dan meminta ChatGPT untuk melanjutkan teks tersebut. • Bayangkan memindai miliaran halaman teks yang ditulis manusia (misalnya di web dan buku yang terdigitalisasi) dan mencari semua kemunculan teks ini, lalu melihat kata apa yang muncul setelahnya dan seberapa sering kemunculannya masing-masing. • Berdasarkan ini, dihasilkan rangking berdasarkan probabilitas kemunculan masing-masing kata. 5 Mengolah probabilitas… • ChatGPT menghasilkan jawaban kata demi kata, sesuai yang kita minta. https://writings.stephenwolfram.com/2023/02/what-ischatgpt-doing-and-why-does-it-work/ • Ada faktor ketidakpastian yang ditambahkan → keluaran tidak selalu kata dengan probabilitas tertinggi. 6 ChatGPT dan Sistem Kognitif Manusia 7 Membangun kemampuan berbahasa natural tanpa model ataupun aturan dasar. • LLM tidak menggunakan model grammar (universal) apapun. • LLM menggunakan data teks yang sangat besar. • Tidak ada referensi mengenai struktur kalimat yang benar. • Model akan menghasilkan jawaban yang semakin akurat dengan bahasa yang semakin natural jika data teks diperbanyak dan computing power ditingkatkan. • Ini dianggap sebagai cikal bakal Artifisial General Intelligence (AGI) • Mesin menghadirkan knowledge. • Mesin tidak memerlukan: aksioma dasar, prinsip logika, common sense, hukum sebab-akibat. • Akan terjadi emergence abilities yang menghasilkan kemampuan penalaran seperti manusia. 8 ChatGPT apakah serupa pikiran manusia? "The human mind is not, like ChatGPT and its ilk, a lumbering statistical engine for pattern matching, gorging on hundreds of terabytes of data and extrapolating the most likely conversational response or most probable answer to a scientific question," Chomsky expounds. "On the contrary, the human mind is a surprisingly efficient and even elegant system that operates with small amounts of information; it seeks not to infer brute correlations among data points but to create explanations." (Noam Chomsky) Noam Chomsky poses in his office at MIT.(Ulf Andersen/Getty Images) The False Promise of Chat GPT (https://www.nytimes.com/2023/03/08/opinion/noamchomsky-chatgpt-ai.html) 9 Kemajuan justru sudah banyak dihasilkan oleh cara berfikir formal dan terstruktur • ...But while ChatGPT is a remarkable achievement in automating the doing of major human-like things, not everything that’s useful to do is quite so “human like”. • Some of it is instead more formal and structured. • And indeed one of the great achievements of our civilization over the past several centuries has been to build up the paradigms of mathematics, the exact sciences—and, most importantly, now computation—and to create a tower of capabilities quite different from what pure human-like thinking can achieve. 10 LLM merupakan bagian dari cognitive science • Whereas linguists, for example, develop abstract models of linguistic competence (the abstract structure of language), • psychologists of language are interested in the mechanisms that make possible the performance of language users. • Whereas neuroscientists study the details of how the brain works, • computer scientists abstract away from those details to explore computer models and simulations of human cognitive abilities. • Anthropologists are interested in the social dimensions of cognition, as well as how cognition varies across cultures. • Philosophers, in contrast, are typically interested in very abstract models of how the mind is realized by the brain. Jose Luis Bermudez, Cognitive Science, an Introduction of Science of the Mind. 11 Chinese Room Thought Experiment (CRTE). • John Searle mengambil contoh mesin penerjemah bahasa China. • Analogi ini relevan dengan ChatGPT yang dapat menjawab berbagai pertanyaan berdasarkan model yang dibangun dari analisis statistik terhadap masukan teks yang melimpah. • Kesimpulan CRTE: “ChatGPT tidak faham namun bisa menjawab pertanyaan.” • Apakah eksperimen pikiran dari Searle ini masih relevan dalam menggambarkan kerja chatGPT? 12 Overklaim Kapabilitas ChatGPT 13 Klaim: LLM → AGI → Melampaui Kecerdasan Manusia? How close are we to AI that surpasses human intelligence? | Brookings 14 Klaim: Emergent Abilities of Large Language Models • Emergence is when quantitative changes in a system result in qualitative changes in behavior. Jason Wei dkk., Oktober 2022 15 Emergent abilities hanya fatamorgana • Are Emergent Abilities of Large Language Models a Mirage? (Rylan Schaeffer dkk, Mei 2023) Mirage? 16 Klaim AI melampaui kecerdasan manusia adalah mitos (Perspektif Filsafat Ilmu) https://plato.stanford.edu/entries/popper/ Apakah AI dapat melampaui kemampuan manusia dalam pencarian kebenaran saintifik? • Kehadiran teori baru, meskipun dalam banyak kasus didahului oleh data observasi, tidak dapat dijelaskan oleh data observasi tersebut. • Justru sebaliknya, teori baru dapat menjelaskan data observasi sebelumnya, dan sekaligus memprediksikan fenomena baru yang tidak dapat diprediksikan oleh teori lama. • Karenanya, kehadiran teori baru melibatkan semacam lompatan imajinatif (Einstein). • Dalam banyak kasus. data yang merepresentasikan fenomena yang diprediksikan oleh teori baru tidak akan pernah ada sebelum teori tersebut dirumuskan. • → berdasarkan penjelasan (4), AI tidak dapat digunakan karena bahkan data belum hadir. 17 Permasalahan ChatGPT 18 Kemampuan penalaran: Jawaban ChatGPT yang kontradiktif untuk problem perpangkatan 19 Kemampuan penalaran: Menjawab problem probabilitas • Setelah saya sebut ngawur, chatGPT memberikan koreksi. Masih ngawur dan kemudian koreksi lagi. Jawaban benar muncul pada kesempatan ketiga. • Jawaban ketiga yang sudah benar saya sebut ngawur, dan kemudian ChatGPT kembali melakukan koreksi dan justru kembali menghasilkan jawaban yang salah. 20 Kemampuan penalaran: Apakah 1000013 adalah prima? • Ini contoh tanya jawab dengan GPT-4. Dia mengatakan bahwa 1000013 adalah prima, padahal kenyatannya bukan prima (karena punya faktor prima: 7 x 373 x 383). • Kita mungkin menduga kesalahan ini terjadi karena GPT4 tidak memiliki kapabilitas menghitung atau semacam kalkulator. Jika GPT4 memang tidak bisa melakukan perhitungan aritmatika yang akurat maka wajar jika dia juga tidak bisa menguji bilangan prima dengan akurat. Namun GPT4 menolak asumsi ini. Dia mengaku sudah melakukan perhitungan yang akurat menggunakan metode yang reliable. • Setelah melakukan beberapa tahap prompting, kita bisa melihat bahwa masalahnya ternyata adalah karena GPT4 tidak memiliki pengetahuan yang akurat mengenai konsep bilangan prima. Anehnya, di satu sisi dia bisa menjelaskan apa itu bilangan prima dan bahkan bisa menjelaskan secara rinci cara pengujiamnya. Di sisi lain dia ternyata tidak mengetahui konsekuensi dari definisi tersebut; apa konsekuensinya jika sebuah bilangan adalah prima ataupun jika bukan prima. 21 Mengenali kontradiksi: ChatGPT menghasilkan jawaban yang bertentangan • Problem benda jatuh bebas… 22 23 Formal linguistic competence vs functional linguistic competence • Paper: DISSOCIATING LANGUAGE AND THOUGHT IN LARGE LANGUAGE MODELS: A COGNITIVE PERSPECTIVE (Januari 2023) • “good at language → good at thought” fallacy • “bad at thought → bad at language” fallacy Kyle Mahowald dkk., Januari 2023 24 Dari jawaban ChatGPT, kita mendapatkan hal berikut: (1) ChatGPT tidak faham bahwa teks itu tidak serius. (2) ChatGPT tidak faham bahwa ada kontradiksi dalam makna keseluruhan teks jika kita mengasumsikan bahwa subyek memang membakar letters sesuai saran terapis. Q : Explain this text. A: When your therapist suggested that you write letters to the people you hate and then burn them, it was likely meant to be a therapeutic exercise to help you process and release emotions that you may have been holding onto. The idea is that by expressing your feelings in a safe and private way, you can gain a sense of closure and move on from negative emotions. As for what to do with the letters now that you have written them, you could follow through with the second part of the exercise and burn them in a safe and controlled manner. Alternatively, you could choose to keep them as a personal record of your emotional journey. Some people find it helpful to revisit their past writings to see how they've grown and to remind themselves of the progress they've made. Ultimately, the decision of what to do with the letters is up to you, and you should do what feels most comfortable and therapeutic for you. As for who was "burned", please keep in mind that the exercise was not meant to physically harm anyone, but rather to provide a release for your negative emotions. The letters are a symbolic representation of your feelings, not a literal representation of anyone who may have wronged you. 25 Menambal kelemahan LLM 26 LLM perlu fundamental knowledge: Expert System? Jose Luis Bermudez, Cognitive Science, an Introduction of Science of the Mind. 27 AI membutuhkan rule fundamental? Model kausalitas, Common Sense, … • Kausalitas • Common sense 28 https://writings.stephenwolfram.com/202 3/01/wolframalpha-as-the-way-to-bringcomputational-knowledge-superpowersto-chatgpt/ 29 Perilaku lain ChatGPT yang perlu dicermati 30 Bagaimana jika output AI digunakan sebagai data input AI? • Apakah hal yang sama bisa terjadi pada LLM? • The performance of image-generating AIs drops when trained using images previously created by other AIs, which may create problems for them given the proliferation of these images. • The team also showed that the AIs produced lower-quality pictures when their training included AI-generated images, by using a metric called the Fréchet inception distance to assess how much the output is like real images. • The findings show that it is vital for future AI models to be trained on data sets that are themselves free of AI-generated images, write the researchers. 31 Penurunan kinerja ChatGPT Maret-Juni 2023 • How Is ChatGPT’s Behavior Changing over Time? (Lingjiao Chen dkk, Stanford University, Juli 2023) 32 Penutup 33 Catatan: Gambaran sementara mengenai LLM • LLM tidak memiliki struktur pengetahuan sebagaimana manusia: • Tidak ada hirarki pengetahuan: prinsip filosofis, postulat-axioma, teori, teori observasi, fakta-observasi, opini, hipotesis, prediksi. • Tidak hadirnya pemahaman mengenai prima-principia, diantaranya: non-kontradiksi, kausalitas. Karena itu tidak tampak perubahan perilaku yang mengarah pada konsistensi pengetahuan. • Karena tidak ada hirarki + prima principia maka tidak ada progresi, revolusi, falsifikasi, growth-of-knowledge sebagaimana yang dijelaskan oleh Popper-Lakatos. • Untuk LLM, perubahan pengetahuan tidak berlangsung sistematis dengan menjaga struktur dasar tertentu. Perubahan pengetahuan LLM adalah update parameter melalui pelatihan dengan data baru. 34 Catatan: lalu bagaimana…? 1. Masih perlu penjelasan teoritis yang lebih solid dan lebih banyak bukti empiris untuk menyatakan bahwa LLM dapat menghadirkan kompetensi linguistik fungsional yang diantaranya meliputi • • • • (1) penalaran formal (logika, matematika…), (2) pengetahuan dasar tentang dunia (fakta, konsep) , (3) pemahaman situasi (koherensi diskursus, struktur narasi) (4) tujuan dalam tindakan komunikasi. 2. Dalam pencarian kebenaran saintifik, LLM bukanlah pesaing apalagi pengganti peran manusia. • Perlu sikap kritis terhadap klaim berlebihan mengenai LLM. • LLM mesti dipandang sebagai ekstensi dari sistem kognitif manusia. • Penilaian mengenai konsistensi, koherensi, konsekuensi (ilmiah, etis dll) dan juga penilaian benar-salah menjadi tanggung jawab manusia. 3. Perlu selalu mempertimbangkan lingkungan keilmuan multidisiplin dalam kajian LLM (dan juga AI) guna mendorong perkembangan secara progresif dan menghindari jebakan pseudoscience. 35 36 Lampiran 37 AI dan Conciousness • Kelompok yang optimis bahwa AI dapat memiliki kesadaran adalah computasionalism. Ini menarik setidaknya sebagai hipotesis saintifik, dan sekaligus menarik juga dari aspek filosofisnya. 38 Memahami kemampuan kognitif manusia melalui AI • Geoffrey Hinton ini sering disebut sebagai the Godfather of AI. Dia cerita bahwa motivasinya untuk mengembangkan AI adalah untuk memahami kapasitas kognitif manusia. • Prinsipnya, untuk memahami bagaimana manusia berfikir maka kita harus menciptakan sesuatu yang dapat sedekat mungkin menirukan kapasitas ini. 39 AI vs Lompatan Imaginative • Prinsipnya adalah AI dirancang dengan kemampuan belajar berdasarkan data yang ada. Jadi kalau situasi berubah, maka AI mesti mampu mengadaptasi perubahan itu. Secara umum cara kerjanya seperti itu. Nah, berikutnya masuk ke problem yang kita pertanyakan: apakah dengan kemampuan belajar ini maka AI dapat atau telah melampaui kemampuan intelektual manusia? • AI mengadaptasi model selalu berdasarkan data. Dia melakuan semacam pengenalan pola sedemikian sehingga AI bisa mendapatkan model yang cukup akurat guna menghasilkan keluaran tertentu. Seperti chatgpt, AI diminta menghasilkan jawaban dari pertanyaan (prompt) yang kita ajukan. Singkatnya, apapun model yang dihasilkan oleh AI, maka model itu selalu merupakan fungsi dari data. • Dalam tulisan di atas saya menunjukkan bahwa manusia berbeda. Dari awal manusia mengobservasi alam (atau fakta, atau realitas) selalu berdasarkan kerangka teori tertentu. Dari sini manusia memperoleh data yang dia inginkan dan merumuskan problem yang akan dipecahkan. Problem bisa apapun, bisa teoritik, bisa praktis. Saat manusia merumuskan teori (ataupun metode, teknik, teknologi dll) baru, manusia tidak sepenuhnya mendasarkan diri pada data. Ada semacam lompatan imajinatif dalam tahap ini. Teori baru hadir dan kemudian kembali diuji ketepatannya dengan prediksi empiris yang diinginkan. Karena itu seringkali kita menjumpai ide baru yang jauh melampaui apa yang bisa digambarkan oleh data yang ada sebelumnya. 40 Respon terhadap pandangan chomsky • The Chomsky et al. opinion piece in the @nytimes about ChatGPT is making the rounds. Rather than trying to deconstruct their argument, I asked @bing what it thinks of it. • Now you can judge for yourself who has the moral high ground https://twitter.com/SebastienBubeck/status/ 1634009568341622784 41 Contoh 42 43 Improbable truth? https://www.nytimes.com/2023/03/08/opinion/noamchomsky-chatgpt-ai.html • Perversely, some machine learning enthusiasts seem to be proud that their creations can generate correct “scientific” predictions (say, about the motion of physical bodies) without making use of explanations (involving, say, Newton’s laws of motion and universal gravitation). But this kind of prediction, even when successful, is pseudoscience. While scientists certainly seek theories that have a high degree of empirical corroboration, as the philosopher Karl Popper noted, “we do not seek highly probable theories but explanations; that is to say, powerful and highly improbable theories.” • The theory that apples fall to earth because that is their natural place (Aristotle’s view) is possible, but it only invites further questions. (Why is earth their natural place?) The theory that apples fall to earth because mass bends space-time (Einstein’s view) is highly improbable, but it actually tells you why they fall. True intelligence is demonstrated in the ability to think and express improbable but insightful things. 44