ალბათ გინახავთ ფანტასტიკური ფილმები ან სატელევიზიო შოუები, სადაც მთავარი გმირი გამოსახულების გაფართოებას და შედეგის გაუმჯობესებას ითხოვს - სახის, ან სანომრე ნიშნის ან სხვა საკვანძო დეტალის ჩვენება. Google-ის უახლესი ხელოვნური ინტელექტის (AI) სისტემები, ე.წ დიფუზიური მოდელები, შეუძლიათ ამ ხრიკის შესრულება.
ეს რთული პროცესია დაუფლებისთვის, რადგან ის არსებითად ამატებს სურათს დეტალებს, რომლებიც კამერას თავდაპირველად არ გადაუღია, სხვა, მსგავს სურათებზე დაფუძნებული სუპერ ჭკვიანი გამოცნობების გამოყენებით.
Google-ში ამ ტექნიკას ბუნებრივ გამოსახულების სინთეზს უწოდებენ და ამ კონკრეტულ სცენარში გამოსახულების ულტრა მაღალი გარჩევადობა. თქვენ იწყებთ პატარა, პიქსელირებული ფოტოთი და დაასრულებთ რაღაც მკვეთრ, ნათელ და ბუნებრივ. შესაძლოა, ეს არ არის ზუსტად ორიგინალი, მაგრამ საკმარისად ახლოსაა, რომ ადამიანის თვალისთვის რეალურად გამოიყურებოდეს.
Google-მა ამ სამუშაოსთვის AI-ის ორი ახალი ინსტრუმენტი წარადგინა. პირველს ჰქვია SR3, ან Super-Resolution via Repeated Refinement და ის მუშაობს სურათზე ხმაურის დამატების და შემდეგ მისი ამოღების გზით. სურათების დიდ მონაცემთა ბაზაზე და მანქანური სწავლების მაგიის საფუძველზე სავარაუდო გამოთვლების სერიის მეშვეობით, SR3-ს შეუძლია წარმოიდგინოს, როგორ გამოიყურება დაბალი რეზოლუციის პიქსელების გამოსახულების სუპერ მაღალი გარჩევადობის ვერსია.
მეორე ინსტრუმენტი არის CDM, ან კასკადური დიფუზიის მოდელები. Google აღწერს მათ, როგორც "მილსადენებს", რომელთა გასწვრივ დიფუზიური მოდელები - მათ შორის SR3 - შეიძლება მიმართული იყოს მაღალი ხარისხის გამოსახულების სკალირების მიზნით. ის იღებს გაუმჯობესების მოდელებს და აქცევს მათ უფრო დიდ სურათებად.
Google-ის თანახმად, სხვადასხვა გაფართოების მოდელების გამოყენებით სხვადასხვა რეზოლუციით, CDM მიდგომას შეუძლია აჯობოს გამოსახულების გაზრდის ალტერნატიულ მეთოდებს. ახალი AI ძრავა გამოსცადეს ImageNet-ზე, სასწავლო სურათების გიგანტურ მონაცემთა ბაზაში, რომელიც ჩვეულებრივ გამოიყენება ვიზუალური ობიექტების ამოცნობის კვლევისთვის.
SR3 და CDM-ის საბოლოო შედეგები შთამბეჭდავია. სტანდარტული ტესტის დროს 50 მოხალისე ადამიანთან ერთად, SR3-ის მიერ გენერირებული ადამიანის სახეების გამოსახულებები შეცდომით შეცდა რეალურ ფოტოებში, დაახლოებით დროის 50%-ში – და იმის გათვალისწინებით, რომ იდეალური ალგორითმი უნდა მიაღწიოს 50%-ს, ეს შთამბეჭდავია. უნდა გავიმეოროთ, რომ ეს გაუმჯობესებული სურათები არ არის ორიგინალების ზუსტი შესატყვისი, ისინი საგულდაგულოდ გათვლილი სიმულაციებია ალბათობის მათემატიკის საფუძველზე.
Google ბევრად მეტს გვპირდება თავისი ახალი AI ძრავებიდან და მასთან დაკავშირებული ტექნოლოგიებიდან - არა მხოლოდ სახეების და სხვა ბუნებრივი ობიექტების სურათების გაზრდის თვალსაზრისით, არამედ ალბათური მოდელირების სხვა სფეროებშიც.
ასევე წაიკითხეთ: