Physical Intelligence, a hot robotics startup, says its new robot brain can figure out tasks it was never taught

Sebuah penyelidikan baharu yang diterbitkan pada hari Khamis oleh Physical Intelligence, sebuah syarikat permulaan robotik yang berusia dua tahun berpangkalan di San Francisco, telah menunjukkan bahawa model terkini mereka mampu mengarahkan robot melaksanakan tugasan yang tidak pernah dilatih secara eksplisit. Keupayaan ini dikatakan mengejutkan penyelidik syarikat itu sendiri, menjadikan Physical Intelligence sebagai salah satu syarikat AI yang paling diberi perhatian di rantau Teluk.

Model baharu yang dinamakan π0.7 ini melambangkan langkah awal yang signifikan ke arah pembangunan otak robot serba guna yang telah lama diidamkan. Dengan model ini, robot boleh diarahkan untuk tugas asing, dibimbing menggunakan bahasa biasa, dan kemudian berjaya melaksanakannya. Sekiranya penemuan ini terbukti kukuh, ia menunjukkan bahawa AI robotik mungkin menghampiri titik perubahan penting, serupa dengan apa yang berlaku dalam bidang model bahasa besar, di mana keupayaan bertambah secara berlipat ganda, melampaui ramalan data asas.

Kertas kerja itu mengemukakan dakwaan utama mengenai generalisasi komposisi, iaitu kebolehan model menggabungkan kemahiran yang dipelajari daripada pelbagai konteks untuk menyelesaikan masalah yang belum pernah dihadapi. Sebelum ini, pendekatan standard untuk melatih robot adalah melalui penghafalan semata-mata — mengumpul data untuk tugas tertentu, melatih model pakar berdasarkan data itu, dan mengulang proses yang sama untuk setiap tugas baharu. Physical Intelligence menyatakan bahawa π0.7 telah berjaya mengubah pendekatan ini.

Sergey Levine, salah seorang pengasas Physical Intelligence dan profesor UC Berkeley yang memfokuskan kepada AI untuk robotik, menjelaskan bahawa apabila model itu beralih daripada hanya melakukan apa yang telah dilatih kepada kebolehan mengolah semula maklumat dengan cara baharu, keupayaannya akan meningkat lebih daripada kadar linear berbanding jumlah data. Beliau menambah, sifat penskalaan yang lebih baik ini pernah disaksikan dalam bidang lain seperti bahasa dan penglihatan.

Demonstrasi paling mengagumkan dalam kertas kerja tersebut melibatkan sebuah penggoreng udara yang model itu hampir tidak pernah lihat semasa latihan. Apabila pasukan penyelidik menyiasat, mereka hanya menemui dua insiden berkaitan dalam keseluruhan set data latihan: satu di mana robot berbeza hanya menutup penggoreng udara, dan satu lagi dari set data sumber terbuka di mana robot lain meletakkan botol plastik di dalamnya mengikut arahan seseorang. Model itu entah bagaimana mensintesis serpihan-serpihan ini, bersama dengan data pra-latihan berasaskan web yang lebih luas, untuk membentuk pemahaman fungsional tentang cara perkakas itu beroperasi.

Lucy Shi, seorang penyelidik di Pi dan pelajar PhD sains komputer Stanford, menyatakan bahawa sukar untuk mengesan dari mana pengetahuan itu berasal, atau bila ia akan berjaya atau gagal. Namun begitu, tanpa bimbingan langsung, model itu berjaya membuat cubaan yang boleh diterima untuk menggunakan perkakas itu bagi memasak ubi keledek. Dengan arahan lisan langkah demi langkah – seperti seorang manusia membimbing robot melaksanakan tugas seolah-olah mengajar pekerja baharu – ia berjaya melaksanakannya.

Keupayaan bimbingan ini sangat penting kerana ia menunjukkan bahawa robot boleh digunakan dalam persekitaran baharu dan diperbaiki secara langsung tanpa memerlukan pengumpulan data tambahan atau latihan semula model.

Jadi, apakah maksud semua ini? Para penyelidik tidak segan mengakui batasan model dan berhati-hati agar tidak terlalu optimistik. Dalam sekurang-kurangnya satu kes, mereka secara terbuka menuding jari kepada pasukan mereka sendiri.

Shi menjelaskan, “Kadangkala punca kegagalan bukan pada robot atau model, tetapi pada kami sendiri. Kami tidak mahir dalam kejuruteraan arahan.” Beliau mengimbas kembali satu eksperimen awal dengan penggoreng udara yang hanya mencapai kadar kejayaan 5%. Namun, selepas meluangkan kira-kira setengah jam untuk memperhalusi cara tugasan itu diterangkan kepada model, kadar kejayaan melonjak kepada 95%.

Model itu juga belum mampu melaksanakan tugas kompleks berbilang langkah secara autonomi daripada satu arahan peringkat tinggi. Levine menerangkan, “Anda tidak boleh menyuruhnya, ‘Hei, buatkan saya roti bakar’.” Namun, jika anda membimbingnya secara langkah demi langkah — ‘untuk pembakar roti, buka bahagian ini, tekan butang itu, lakukan ini’ — ia cenderung berfungsi dengan baik.

Pasukan penyelidik juga mengakui bahawa penanda aras piawai bagi robotik masih belum wujud, yang menyukarkan pengesahan luaran terhadap dakwaan mereka. Sebaliknya, syarikat itu membandingkan π0.7 dengan model pakar mereka yang terdahulu — sistem yang dibina khusus untuk tugas individu — dan mendapati model generalis ini setanding dengan prestasi model khusus mereka dalam pelbagai kerja kompleks, termasuk membuat kopi, melipat pakaian, dan memasang kotak.

Perkara yang paling penting tentang penyelidikan ini, sekiranya kata-kata penyelidik itu diambil kira, bukanlah mana-mana demonstrasi tunggal, tetapi tahap kejutan yang dialami oleh mereka. Sebagai pakar yang bertanggungjawab mengetahui dengan tepat apa yang terkandung dalam data latihan, mereka seharusnya tahu apa yang boleh dan tidak boleh dilakukan oleh model.

Ashwin Balakrishna, seorang saintis penyelidik di Physical Intelligence, berkata, “Pengalaman saya sentiasa begitu, apabila saya benar-benar tahu apa yang ada dalam data, saya boleh agak apa yang model akan mampu lakukan. Saya jarang terkejut. Tetapi beberapa bulan kebelakangan ini adalah kali pertama saya benar-benar terkejut. Saya hanya membeli set gear secara rawak dan bertanya kepada robot, ‘Hei, bolehkah anda memutar gear ini?’ Dan ia berfungsi begitu sahaja.”

Levine teringat saat penyelidik pertama kali berdepan dengan GPT-2 yang menjana cerita tentang unicorn di Pergunungan Andes. Beliau berkata, “Dari mana ia belajar tentang unicorn di Peru? Itu gabungan yang sangat pelik. Dan saya rasa melihat perkara seperti itu dalam robotik adalah sesuatu yang istimewa.”

Secara semula jadi, pengkritik akan menuding kepada ketidakseimbangan yang kurang menyenangkan di sini: model bahasa mempunyai akses kepada seluruh internet untuk belajar, tetapi robot tidak, dan tiada sebarang arahan bijak pun dapat sepenuhnya merapatkan jurang itu. Namun, apabila ditanya di mana beliau menjangkakan kritikan, Levine menunjuk ke arah lain sama sekali.

Beliau menyatakan, “Kritikan yang sering dilemparkan kepada sebarang demonstrasi generalisasi robotik adalah tugas yang dilaksanakan itu agak membosankan. Robot itu tidak melakukan pusingan belakang.” Levine menolak persepsi tersebut, berhujah bahawa perbezaan antara demonstrasi robot yang mengagumkan dengan sistem robotik yang benar-benar boleh membuat generalisasi adalah intipati utama. Generalisasi, tegasnya, akan sentiasa kelihatan kurang dramatik berbanding aksi yang dirancang rapi — tetapi ia jauh lebih berguna.

Kertas kerja itu sendiri menggunakan bahasa yang berhati-hati dan berwaspada, memerihalkan π0.7 sebagai menunjukkan “petanda awal” generalisasi dan “demonstrasi permulaan” keupayaan baharu. Ini adalah hasil penyelidikan, bukan produk yang sedia digunakan.

Apabila ditanya secara langsung bila sistem berasaskan penemuan ini mungkin sedia untuk penggunaan dunia sebenar, Levine enggan membuat spekulasi. Beliau berkata, “Saya rasa ada alasan kukuh untuk optimis, dan sememangnya ia berkembang lebih pantas daripada jangkaan saya beberapa tahun lalu. Tetapi sangat sukar bagi saya untuk menjawab soalan itu.”

Physical Intelligence telah mengumpul dana melebihi $1 bilion sehingga kini dan nilai terkininya mencecah $5.6 bilion. Minat pelabur terhadap syarikat ini sebahagian besarnya berpunca daripada Lachy Groom, salah seorang pengasas bersama yang bertahun-tahun menjadi antara pelabur malaikat yang dihormati di Silicon Valley – menyokong syarikat seperti Figma, Notion, dan Ramp, antara lain – sebelum beliau memutuskan bahawa Physical Intelligence adalah syarikat yang dicarinya. Rekod cemerlang itu telah membantu syarikat baharu ini menarik pelaburan institusi yang besar walaupun ia enggan memberikan jadual waktu komersialisasi kepada pelabur.

Physical Intelligence, a hot robotics startup, says its new robot brain can figure out tasks it was never taught

Leave a Reply Cancel reply