Microsoft Kosmos-1 გზას უხსნის ადამიანის დონის AI-ს

ამ კვირის დასაწყისში მკვლევარებმა Microsoft წარმოადგინა Kosmos-1, მულტიმოდალური ხელოვნური ინტელექტის მოდელი, რომელსაც შეუძლია სურათების შინაარსის ანალიზი, ვიზუალური თავსატეხების ამოხსნა, ტექსტის ვიზუალური ამოცნობა, ვიზუალური IQ ტესტების გავლა და ბუნებრივი ენის ინსტრუქციების გაგება. მკვლევარების აზრით, ხელოვნური ინტელექტის ასეთი მოდელები პირველი ნაბიჯია ხელოვნური ზოგადი ინტელექტის (AI) შექმნისკენ, რომელსაც შეუძლია ადამიანის დონეზე ერთობლივი დავალებების შესრულება. ანუ ეს ტექნოლოგია შეძლებს ადამიანის ჩანაცვლებას ნებისმიერ ინტელექტუალურ ამოცანაში. და ეს არის OpenAI-ის, მთავარი ბიზნეს პარტნიორის გაცხადებული მიზანი Microsoft ხელოვნური ინტელექტის სფეროში.

ამ შემთხვევაში, Kosmos-1 არის კომპანიის წმინდა პირადი განვითარება Microsoft. მკვლევარები მათ შექმნას უწოდებენ "მულტიმოდალური ფართო ენის მოდელს" (MLLM), რადგან მისი ფესვები დევს მხოლოდ ტექსტის ბუნებრივი ენის დამუშავებაში, როგორიცაა LLM, როგორიცაა ChatGPT. იმისთვის, რომ მოდელმა მიიღოს შეყვანის სურათები, მკვლევარებმა ჯერ უნდა გადაიყვანონ სურათები სიმბოლოების სპეციალურ სერიად (ძირითადად ტექსტში), რომლის გაგებაც LLM-ს შეუძლია.

Kosmos-1 სწავლობდა მონაცემთა ბაზაზე ინტერნეტიდან, მათ შორის ამონაწერები The Pile (800 GB ინგლისური ტექსტური რესურსი) და Common Crawl. შემდეგ მოდელი შემოწმდა რამდენიმე ტესტით მეტყველების გაგებისთვის, მეტყველების გენერირებისთვის, ტექსტის კლასიფიკაციისთვის, სიმბოლოების ოპტიკური ამოცნობის გარეშე, გამოსახულების წარწერით, ვიზუალური კითხვებზე პასუხის გაცემით, ვებ გვერდის კითხვებზე პასუხის გაცემით და გამოსახულების კლასიფიკაციის ლოკალიზაციით. Მიხედვით Microsoft, Kosmos-1-მა ამჟამინდელ მოდელებს აჯობა ბევრ ამ ტესტში.

განსაკუთრებით საინტერესო იყო Raven's Progressive Reasoning ტესტი, რომელიც ზომავს ვიზუალურ IQ-ს ფორმების თანმიმდევრობის წარმოდგენით და სუბიექტს სთხოვს დაასრულოს თანმიმდევრობა. კოსმოს-1-მა შეძლო სწორი პასუხის გაცემა შემთხვევების 22%-ში.

ამ ადრეულმა ნაბიჯებმა, რომლებიც სამომავლო ოპტიმიზაციით შეიძლება გამოიღოს კიდევ უფრო მნიშვნელოვანი შედეგები, რაც საშუალებას მისცემს AI-ს მოდელებს აღიქვან და გავლენა მოახდინონ მედიის ნებისმიერ ფორმაზე, რაც მნიშვნელოვნად გააფართოვებს ხელოვნური ასისტენტების შესაძლებლობებს.

ასევე წაიკითხეთ:

ჯერილოარტექნიკა

დარეგისტრირდით

0 კომენტარები

ჩაშენებული მიმოხილვები

ყველა კომენტარის ნახვა

სხვა სტატიები

Microsoft წარმოადგინა მულტიმოდალური მიდგომა, რომელიც გზას უხსნის ადამიანის დონის AI-ს

Ბოლო კომენტარები