IBM-მა შექმნა Project CodeNet მონაცემთა ნაკრები AI-სთვის

ერთეული IBM ხელოვნური ინტელექტის (AI) კვლევამ წარმოადგინა 14 მილიონი ნიმუშისგან შემდგარი მონაცემთა ნაკრები მანქანური სწავლების მოდელების შესამუშავებლად, რომლებიც დაეხმარება პროგრამირების ამოცანებს. მონაცემთა ნაკრები სახელად პროექტი CodeNet, სახელწოდება ImageNet-დან მიიღო, ცნობილი სურათების საცავი, რომელმაც რევოლუცია მოახდინა კომპიუტერულ ხედვასა და ღრმა სწავლაზე.

პროგრამისტები აღმოაჩენენ ახალ პრობლემებს და იკვლევენ სხვადასხვა გადაწყვეტილებებს, ცნობიერი და ქვეცნობიერი აზროვნების მრავალი მექანიზმის გამოყენებით. მანქანური სწავლების ალგორითმების უმეტესობას სჭირდება კარგად განსაზღვრული ამოცანები და დიდი რაოდენობით ანოტირებული მონაცემები მოდელების შესაქმნელად, რომლებსაც შეუძლიათ იგივე პრობლემების გადაჭრა.

IBM Project CodeNet — Project CodeNet არის უზარმაზარი მონაცემთა ნაკრები ~ 14 მილიონი კოდის მაგალითისგან, რომლებიც მიმოფანტულია პროგრამირების ათეულობით ენაზე.

დიდი ძალისხმევა დაიხარჯა ექსპერტთა საზოგადოების მიერ AI-code სისტემების შემუშავებისა და შეფასებისთვის მონაცემთა ნაკრებისა და ეტალონების შესაქმნელად. მაგრამ, პროგრამული უზრუნველყოფის შემოქმედებითი და ღია ბუნების გათვალისწინებით, ძალიან რთულია პროგრამირების სრულყოფილი მონაცემთა ნაკრების შექმნა. Project CodeNet-ის საშუალებით IBM-ის მკვლევარებმა სცადეს შეექმნათ მრავალფუნქციური მონაცემთა ბაზა, რომელიც შეიძლება გამოყენებულ იქნას მანქანური სწავლების მოდელების მოსამზადებლად სხვადასხვა ამოცანებზე. CodeNet-ის შემქმნელები მას აღწერენ, როგორც „ძალიან ფართომასშტაბიანი, მრავალფეროვანი და მაღალი ხარისხის მონაცემთა ბაზა კოდისთვის AI-ში ალგორითმული მიღწევების დასაჩქარებლად“.

მონაცემთა ნაკრები შეიცავს 14 მილიონი ხაზის კოდის 500 მილიონ მაგალითს, რომლებიც დაწერილია 55 სხვადასხვა პროგრამირების ენაზე. კოდის ნიმუშები მიღებული იქნა თითქმის 4000 წარმოდგენილი ამოცანიდან, რომლებიც განთავსებული იყო AIZU და AtCoder ონლაინ კოდირების პლატფორმებზე. კოდის მაგალითები შეიცავს როგორც სწორ, ასევე არასწორ პასუხებს მოცემულ ამოცანებზე.

ასევე საინტერესოა:

CodeNet-ის ერთ-ერთი მთავარი მახასიათებელია მაგალითებზე დამატებული ანოტაციების რაოდენობა. მონაცემთა ნაკრებში შემავალი კოდირების თითოეულ ამოცანას აქვს ტექსტური აღწერა, ასევე CPU დროისა და მეხსიერების ლიმიტები. თითოეული კოდის გაგზავნა შეიცავს ათეულ ინფორმაციას, მათ შორის ენას, წარდგენის თარიღს, ზომას, შესრულების დროს, მიღებას და შეცდომის ტიპებს. IBM-ის მკვლევარებმა ასევე დიდი ძალისხმევა გააკეთეს იმისთვის, რომ მონაცემთა ნაკრები დაბალანსებული ყოფილიყო სხვადასხვა პარამეტრებში, მათ შორის პროგრამირების ენაზე, მისაღებობაზე და შეცდომის ტიპებზე.

IBM Project CodeNet

CodeNet არ არის ერთადერთი მონაცემთა ბაზა პროგრამირების ამოცანების შესახებ მანქანური სწავლების მოდელების სწავლებისთვის. მაგრამ არსებობს რამდენიმე მახასიათებელი, რომელიც განასხვავებს მას. პირველი არის მონაცემთა ნაკრების დიდი ზომა, მათ შორის ნიმუშების რაოდენობა და ენების მრავალფეროვნება. მაგრამ, ალბათ, უფრო მნიშვნელოვანია მეტამონაცემები, რომლებიც მოყვება კოდის ნიმუშებს. CodeNet-ში დამატებული მდიდარი ანოტაციები მას შესაფერისს ხდის ამოცანების მრავალფეროვანი ნაკრებისთვის, განსხვავებით სხვა კოდირების მონაცემთა ნაკრებისგან, რომლებიც სპეციალიზირებულნი არიან პროგრამირების კონკრეტულ ამოცანებში.

ეს არის გონება.

GPT-3– ით მე ავაშენე განლაგების გენერატორი, სადაც თქვენ უბრალოდ აღწერეთ თქვენთვის სასურველი ნებისმიერი განლაგება და წარმოქმნის JSX კოდს თქვენთვის.

ᲠᲐ ფოტოtwitter.com/w8JkrZO4lk

- Sharif Shameem (@sharifshameem) ივლისი 13, 2020

CodeNet-ის გამოყენების რამდენიმე გზა არსებობს. ერთ-ერთი მათგანია ენის თარგმანი. ვინაიდან მონაცემთა ნაკრების თითოეული კოდირების დავალება შეიცავს სხვადასხვა პროგრამირების ენების წარმოდგენებს, მონაცემთა მეცნიერებს შეუძლიათ გამოიყენონ ის მანქანური სწავლების მოდელების შესაქმნელად, რომლებიც თარგმნიან კოდს ერთი ენიდან მეორეზე. ეს შეიძლება იყოს მოსახერხებელი იმ ორგანიზაციებისთვის, რომლებსაც სურთ ძველი კოდის ახალ ენებზე გადატანა და მათი ხელმისაწვდომობა ახალი თაობის პროგრამისტებისთვის.

ასევე წაიკითხეთ:

ჯერილოanalyticsindiamag

დარეგისტრირდით

2 კომენტარები

უფრო ახლები

უფროსები Ყველაზე პოპულარული

ჩაშენებული მიმოხილვები

ყველა კომენტარის ნახვა

ვიქტორ

2 წლის წინ

ტრადიციებმა და მემკვიდრეობითობამ უნდა ითამაშოს განსხვავებულ აზროვნებასთან, ნერვული ალგორითმების ყველაზე ახალგაზრდა თაობისა და პრობლემების დასმის ML-მეთოდებით, ურთიერთგაუმჯობესებით.

0

უპასუხე

ასდ

2 წლის წინ

დროთა განმავლობაში პროგრამისტების დონე კიდევ უფრო დაიკლებს (დღევანდელთან შედარებით). ანუ, შესაძლებელი იქნება ირიბი, მრუდე კოდის დაწერა „შუტ ენაზე“. შემდეგ კი მანქანა ოპტიმიზაციას გაუწევს და შესაძლებელი იქნება პროფესიონალი ასამბლერის პროგრამისტის ოპტიმიზებული კოდის მიღება (ან კიდევ უკეთესი).

0

უპასუხე

სხვა სტატიები

IBM-მა შექმნა Project CodeNet მონაცემთა ნაკრები: 14 მილიონი კოდის ნიმუში ასწავლის AI-ს დაპროგრამებას

Ბოლო კომენტარები