ოთხშაბათი, 8 მაისი, 2024 წ

დესკტოპის v4.2.1

Root NationსიახლეებიIT სიახლეებიMeta-ს ImageBind AI-ს შეუძლია ადამიანის აღქმის იმიტაცია

Meta-ს ImageBind AI-ს შეუძლია ადამიანის აღქმის იმიტაცია

-

Meta აქვეყნებს კოდს ღია ხელმისაწვდომობის ხელოვნურ ინტელექტში სახელწოდებით ImageBind, რომელიც პროგნოზირებს ურთიერთობას მონაცემებს შორის ისეთივე, როგორიც ხალხი აღიქვამს ან წარმოუდგენია მათ გარემოს. მიუხედავად იმისა, რომ გამოსახულების გენერატორები, როგორიცაა Midjourney, Stable Diffusion და DALL-E 2 აკავშირებენ სიტყვებს სურათებს, რაც საშუალებას გაძლევთ შექმნათ ვიზუალური სცენები მხოლოდ ტექსტური აღწერილობის საფუძველზე, ImageBind სცილდება ამას. მას შეუძლია დააკავშიროს ტექსტი, სურათები ან ვიდეო, აუდიო, 3D გაზომვები, ტემპერატურული მონაცემები და მოძრაობის მონაცემები - და ამას აკეთებს წინასწარი ვარჯიშის საჭიროების გარეშე, ყოველი შესაძლებლობის შემთხვევაში. ეს არის ჩარჩოს ადრეული ეტაპი, რომელიც საბოლოოდ შეძლებს რთული გარემოს გენერირებას მარტივი შეყვანისგან, როგორიცაა ტექსტის მოთხოვნა, სურათი ან აუდიო (ან მათი კომბინაცია).

Metaverse Project

თქვენ შეგიძლიათ წარმოიდგინოთ ImageBind, როგორც მანქანური სწავლების მიახლოება ადამიანის სწავლებასთან. მაგალითად, თუ დგახართ დინამიურ გარემოში, როგორიცაა ქალაქის დატვირთული ქუჩა, თქვენი ტვინი (ძირითადად არაცნობიერად) შთანთქავს სანახაობებს, ბგერებს და სხვა სენსორულ შეგრძნებებს, რათა მიიღოთ ინფორმაცია გამვლელი მანქანების, მაღალი შენობების, ამინდისა და სხვა. . ადამიანები და სხვა ცხოველები განვითარდნენ, რათა დაამუშავონ ეს მონაცემები ჩვენი გენეტიკური უპირატესობებისთვის: გადარჩენისა და ჩვენი დნმ-ის გადაცემის მიზნით. (რაც უფრო მეტი იცით თქვენი გარემოს შესახებ, მით უფრო მეტად შეძლებთ თავიდან აიცილოთ საფრთხე და მოერგოთ თქვენს გარემოს უკეთესად გადარჩენისა და განვითარებისთვის). როდესაც კომპიუტერები უახლოვდებიან ცხოველების მულტისენსორული კავშირების მიბაძვას, მათ შეუძლიათ გამოიყენონ ეს კავშირები, რათა შექმნან სრულად რეალიზებული სცენები მხოლოდ შეზღუდული მონაცემების საფუძველზე.

ასე რომ, სანამ თქვენ შეგიძლიათ გამოიყენოთ Midjourney, რათა შექმნათ „ბასეტი ძაღლი განდალფის კოსტუმში, რომელიც ბალანსირებს პლაჟის ბურთზე“ და მიიღოთ ამ უცნაური სცენის შედარებით რეალისტური ფოტო, მულტიმოდალური AI ინსტრუმენტი, როგორიცაა ImageBind, შესაძლოა დასრულდეს ძაღლთან შესაბამისი ვიდეოს შესაქმნელად. ხმები, მათ შორის დეტალური მისაღები ოთახი, ოთახის ტემპერატურა და ძაღლის ზუსტი მდებარეობა და ყველა დანარჩენი სცენაზე. „ეს ქმნის შესანიშნავ შესაძლებლობას შექმნათ ანიმაციები სტატიკური სურათებიდან მათი აუდიო მოთხოვნებთან კომბინაციით“, აღნიშნავენ Meta-ს მკვლევარები თავიანთ დეველოპერებზე ორიენტირებულ ბლოგში. „მაგალითად, შემქმნელს შეუძლია დააკავშიროს გამოსახულება მაღვიძარასა და მამლის ყივილთან და გამოიყენოს აუდიო სიგნალი მამლის სეგმენტაციისთვის ან მაღვიძარას ხმა საათის სეგმენტად და ორივეს ანიმაცია ვიდეო თანმიმდევრობით.

 

Meta

რაც შეეხება კიდევ რა შეიძლება გაკეთდეს ამ ახალი სათამაშოთი, ის აშკარად მიუთითებს მეტას ერთ-ერთ მთავარ ამბიციაზე: VR, შერეული რეალობა და მეტასივრცე. მაგალითად, წარმოიდგინეთ მომავალი ყურსასმენი, რომელსაც შეუძლია შექმნას სრულად რეალიზებული 3D სცენები (ხმით, მოძრაობით და ა.შ.) ფრენის დროს. ან ვირტუალური თამაშების შემქმნელებს შეეძლოთ საბოლოოდ გამოიყენონ ის, რათა დაზოგონ საკუთარი თავის დახვეწილი სამუშაოს მნიშვნელოვანი ნაწილი დიზაინის პროცესში. ანალოგიურად, კონტენტის შემქმნელებს შეუძლიათ შექმნან განსაცვიფრებელი ვიდეოები რეალისტური საუნდტრეკებით და მოძრაობებით, მხოლოდ ტექსტის, სურათების ან აუდიოს საფუძველზე. ასევე ადვილი წარმოსადგენია, როგორ ხსნის ხელსაწყო, როგორიცაა ImageBind, ხელმისაწვდომობის ახალ კარებს რეალურ დროში მულტიმედიური აღწერილობების წარმოქმნით, რათა დაეხმაროს ადამიანებს ვიზუალური ან სმენის დაქვეითებით უკეთ გაიგონ თავიანთი გარემო.

ასევე საინტერესოა: საუკეთესო ინსტრუმენტები ხელოვნური ინტელექტის საფუძველზე

„ჩვეულებრივი ხელოვნური ინტელექტის სისტემებში არის სპეციფიკური ჩაშენება (ანუ რიცხვების ვექტორები, რომლებსაც შეუძლიათ წარმოადგინონ მონაცემები და მათი ურთიერთობა მანქანურ სწავლებაში) თითოეული შესაბამისი მოდალისთვის“, - ამბობს მეტა. „ImageBind გვიჩვენებს, რომ შესაძლებელია მრავალი მოდალობისთვის საერთო ჩაშენების სივრცის შექმნა მოდალობის თითოეული ინდივიდუალური კომბინაციით მონაცემებზე ვარჯიშის გარეშე. ეს მნიშვნელოვანია, რადგან მკვლევარებს არ შეუძლიათ მონაცემთა ნაკრების შექმნა ისეთი ნიმუშებით, რომლებიც შეიცავს, მაგალითად, აუდიო მონაცემებს და თერმულ მონაცემებს ქალაქის გადატვირთული ქუჩიდან, ან სიღრმის მონაცემებს და ზღვისპირა კლდის ტექსტურ აღწერას.

მეტას მიაჩნია, რომ ეს ტექნოლოგია საბოლოოდ გასცდება ამჟამინდელ ექვს „გრძნობას“, ასე ვთქვათ. "მიუხედავად იმისა, რომ ჩვენ გამოვიკვლიეთ ექვსი მოდალობა ჩვენს ამჟამინდელ კვლევაში, ჩვენ გვჯერა, რომ ახალი მოდალობის დანერგვა, რომელიც რაც შეიძლება მეტ გრძნობას აკავშირებს - როგორიცაა შეხება, მეტყველება, ყნოსვა და fMRI ტვინის სიგნალები - საშუალებას მისცემს უფრო მდიდარი ადამიანზე ორიენტირებული AI მოდელების შექმნას." დეველოპერებს, რომლებიც დაინტერესებულნი არიან ამ ახალი sandbox-ის შესწავლით, შეუძლიათ დაიწყონ Meta-ს ღია კოდის შესწავლით.

ასევე წაიკითხეთ:

ჯერილოEngadget
დარეგისტრირდით
შეატყობინეთ შესახებ
სასტუმრო

0 კომენტარები
ჩაშენებული მიმოხილვები
ყველა კომენტარის ნახვა
სხვა სტატიები
გამოიწერეთ განახლებები
პოპულარული ახლა