ჰუმანოიდური რობოტების განვითარება ორი ათწლეულის განმავლობაში ნელი ტემპით მოძრაობდა, მაგრამ ბოლო დროს ჩვენ ვნახეთ უფრო და უფრო მეტი გარღვევა ამ სფეროში. როგორც ცოტა ხნის წინ დავწერეთ, AI რობოტი იყო წარმოდგენილი MWC 2024-ზე ამეკადა კიდევ ერთი განვითარება, Unitree H1, მოხსნა სიჩქარის რეკორდი ჰუმანოიდ რობოტებს შორის. ახლა კი ინტერნეტში გამოჩნდა Figure AI და OpenAI კომპანიების თანამშრომლობის სანახაობრივი შედეგი - ჰუმანოიდური რობოტის განსაცვიფრებელი ვიდეო, რომელსაც ახლა შეუძლია ადამიანებთან საუბარი.
Startup Figure AI-მ გამოაქვეყნა ვიდეო, სადაც ნაჩვენებია რობოტი Figure 01, რომელიც მუშაობს ახალ ვიზუალური ენის მოდელთან (VLM). მასში ფიგურა 01 დგას მაგიდასთან, რომელზეც არის თეფში, ვაშლი და ჭიქა. მარცხნივ არის საშრობი. ხოლო ადამიანის კითხვაზე, რას ხედავს რობოტი მის წინ, ის პასუხობს დეტალურად აღწერს ყველაფერს, რაც მაგიდაზე დევს.
შემდეგ მამაკაცი ეკითხება, შეუძლია თუ არა რაღაცის ჭამა, რობოტი კი პასუხობს: „რა თქმა უნდა“, შემდეგ კი ოსტატურად რბილი მოძრაობით იღებს ვაშლს და აწვდის კაცს. ამის შემდეგ მოდის კიდევ ერთი განსაცვიფრებელი დემონსტრაცია - კაცი ასხამს დაქუცმაცებულ ნაგავს კალათიდან სურათი 01-ის წინ და სთხოვს რობოტს ახსნას რატომ გააკეთა ეს და ამავდროულად შეაგროვოს ნაგავი კალათაში. და ის ხსნის თავის „აზრს“ ქაღალდის ურნაში დაბრუნებისას. "ასე რომ, მე შენ ვაშლი გაჩუქე, რადგან ეს არის ერთადერთი საკვები პროდუქტი, რომლის მიცემაც შემიძლია მაგიდიდან", - თქვა რობოტმა.
კომპანიის წარმომადგენლებმა განმარტეს, რომ სურათი 01 იყენებს წინასწარ მომზადებულ მულტიმოდალურ მოდელს OpenAI, VLM, სურათებისა და ტექსტების გასაგებად და პასუხების გენერირებისთვის ეყრდნობა ხმოვან მოთხოვნებს. ეს განსხვავდება, ვთქვათ, OpenAI-ს GPT-4-ისგან, რომელიც ფოკუსირებულია წერილობით მოთხოვნებზე.
ის ასევე იყენებს იმას, რასაც კომპანია უწოდებს "დაბალი დონის ბიმანუალურ მანიპულაციებს". სისტემა კოორდინაციას უწევს გამოსახულების ზუსტ კალიბრაციას (პიქსელის დონემდე) თავის ნერვულ ქსელთან მოძრაობის კონტროლისთვის. „ეს ქსელები იღებენ სურათებს 10 ჰც სიხშირით და წარმოქმნიან 24-DOF მოქმედებებს (მაჯის პოზები და თითის სახსრის კუთხეები) 200 ჰც-ზე“, - ნათქვამია Figure AI-ის განცხადებაში.
კომპანია ამტკიცებს, რომ ვიდეოში ყველა ქცევა ეფუძნება სისტემურ სწავლებას, ასე რომ, კულისებში არავინ აჭერს ფიგურას 01-ის სიმებს. რა თქმა უნდა, არის ნიუანსი - უცნობია რამდენჯერ გაიარა რობოტმა ეს პროცედურა. შესაძლოა ეს მეასედ იყო, რაც ხსნის მის ზუსტ მოძრაობებს. მაგრამ ნებისმიერ შემთხვევაში, ეს მიღწევა გამოიყურება სანახაობრივი და ცოტა ფანტასტიკური.
სურათი 01 ახლა ასრულებს რეალურ სამყაროში დავალებებს
ყველაფერი ავტონომიურია:
-ავტონომიური ნავიგაცია და ძალზე დაფუძნებული მანიპულირება
- ნასწავლი ხედვის მოდელი ურნის გამოვლენისა და პრიორიტეტიზაციისთვის
- რეაქტიული ურნის მანიპულირება (მყარი პოზირების ვარიაცია)
- განზოგადოება სხვა არჩევანის/დასვლის ამოცანებისთვის ფოტოtwitter.com/0wFmYnq0GC— ფიგურა (@Figure_robot) თებერვალი 26, 2024
ასევე წაიკითხეთ: