Zum Hauptinhalt springen

1.5-ბიტიანი LLM iPhone-ზე: რატომ არის Apple-ის 'აპარატურული გადასახადი' შემოსავლების კარი და არა საინჟინრო ბარიერი

ვერდიქტი: 7-მილიარდიანი პარამეტრის LLM, შეკუმშული 1.58 ბიტამდე წონებაზე, თავისუფლად ეტევა 1.2 გბ რამ-ში. iPhone 12-ს აქვს 4 გბ. ბარიერი, რომელსაც Apple ახსენებს — „Apple Intelligence მოითხოვს A17 Pro-ს ან უფრო ახალს“ — 2026 წლისთვის საინჟინრო სისულელეა. ციფრები: BitNet b1.58-ის ნაშრომი (Microsoft Research, 2024) → LLaMA-ს დონის ეფექტურობა მოდელის ზომის 1/8-ით. Recover-LoRA (ივნისის 2026) → 2-ბიტიანი კვანტიზაცია სრულ სიზუსტეს აღადგენს low-rank fine-tuning-ის მეშვეობით. Hybrid Gated Flow (თებერვალი 2026) → „Memory Wall“-ს განსაზღვრავს როგორც რეალურ შეზღუდვას და არა გამოთვლით სიმძლავრეს. Apple-ის სვლა: Apple Intelligence-ის დაბლოკვა iPhone 15-ზე და უფრო ძველ მოდელებზე. 250 მილიონზე მეტი მომხმარებლის განაპიქსელება ახალ მოდელებზე, რათა მათ გამოიყენონ on-device Siri-ს გამოცდილება. სტატუსი: აპარატურული კარი სინამდვილეში შემოსავლების კარია. ინჟინერია მზად არის. დეპლოიმენტი — არა.

30-წამიანი ვერსია: რა არის „1.5-ბიტიანი“ LLM #

როდესაც LLM თქვენს ტელეფონზე მუშაობს, ყოველი „წონა“ (weight) — ნეირონული ქსელის ყოველი კავშირი — ჩვეულებრივ არის რიცხვი, რომელიც მეხსიერებაში 16 ბიტს (2 ბაიტს) იკავებს. 7-მილიარდიანი პარამეტრის მოდელი, Meta-ს LLaMA 2 7B-ს მსგავსი, 16-ბიტიანი სიზუსტით დაახლოებით 14 გბ-ს მოითხოვს. სწორედ ამიტომ არის Cloud AI ღრუბლოვანი: არცერთ ტელეფონს არ აქვს 14 გბ თავისუფალი ადგილი ერთი მოდელისთვის.

კვანტიზაცია ამცირებს თითოეული წონის ბიტებს. 16-ბიტიდან 8-ბიტზე გადასვლა მეხსიერებას напоს halved-ით (7 გბ). 4-ბიტი კვლავ напоს halved-ით (3.5 გბ). 2-ბიტი მას 1.75 გბ-მდე დააქვეითებს. 1.58-ბიტი, Microsoft Research-ის BitNet b1.58 დიზაინი [The Era of 1-bit LLMs], ყველაზე აგრესიულია: ყოველი წონა არის სამი მნიშვნელობიდან ერთ-ერთი — მინუს ერთი, ნული ან პლუს ერთი. თითოეული წონა დაახლოებით 1.58 ბიტს იკავებს. 7B მოდელი ხდება 1.2 გბ.

ეს 1.2 გბ არის მთელი ამ ისტორიის არსი. iPhone 12-ს, რომელიც 2020 წელს გამოვიდა, აქვს 4 გბ რამ. Apple-ის iPhone 13, 14 და 15 მოდელებს აქვთ 4–8 გბ. არცერთი ეს ტელეფონი არ არის გამოთვლით და đóლილი 1.2 გბ-იანი მოდელისთვის. მეხსიერება გამართულად მუშაობს. Compute-იც გამართულია. Neural Engine-ი დრამატულად არ გაუმჯობესებულა A14-დან A17-მდე ამ დატვირთვისთვის — ის ინკრემენტალურად გახდა სწრაფი და არა კატეგორიულად შესაძლებელი.

რას ამბობს კვლევა — მარტივად #

2026 წელს გამოქვეყნებული სამი ნაშრომი ამტკიცებს, რომ 1.5-ბიტი აღარ არის ექსპერიმენტული.

[Hybrid Gated Flow] (თებერვალი 2026) საინჟინრო რეალობის ყველაზე სუფთა ფორმულირებაა: „LLM-ების Edge მოწყობილობებზე დეპლოიმენტი ფუნდამენტურად შეზღუდულია ‘Memory Wall’-ით — აპარატურული ლიმიტით, სადაც მეხსიერების გამტარუნარიანობა, და არა გამოთვლები, ხდება ბოთლის ყელი“. ნაშრომი შემდეგი აჩვენებს, როგორ დავაინსტალიროთ 1.58-ბიტიანი LLM-ები edge აპარატურაზე სელექტური low-rank კორექციებით. ეს მუშაობს.

[Recover-LoRA] (ივნისის 2026) პასუხობს ისტორიულ შეშფოთებას: როდესაც მოდელს ასე აგრესიულად აკუმშრებთ, ის სიზუსტეს კარგავს. ნაშრომი აჩვენებს, რომ 2-ბიტიანი კვანტიზაცია, შეხამებული მცირე LoRA fine-tune-ით კომპრესიის შემდეგ, სრულ სიზუსტეს აღადგენს. პროცესი ასეთია: აიღეთ ნებისმიერი 7B მოდელი → დააკვანტიზეთ 2-ბიტამდე → დააფიქსირეთ პატარა LoRA ადაპტერი → გაუშვით. სიზუსტის პრობლემა მოგვარებულია.

[Sparse-BitNet] (მარტი 2026) აჩვენებს, რომ 1.58-ბიტიანი მოდელები და სპარსულობა (sparsity) ერთმანეთს ერგება — თქვენ შეგიძლიათ ყოველი 4 წონიდან 2 ნულად აქციოთ და 1.58-ბიტიანი ფორმატი მოდელს კიდევ უფრო დააკუმშრებს ხელახალი წვრთნის გარეშე. 7B Sparse-BitNet მოდელი ეტევა დაახლოებით 600 მბ-ში.

[BitNet Distillation] (ოქტომბერი 2025) გვთავაზობს წარმოების სატყტაროს: „მსუბუქი“ ხელსაწყო, რომელიც სრული სიზუსტის მოდელებს, როგორიცაა Qwen, 1.58-ბიტიან ფორმაში გარდაქმნის. Apple უკვე იყენებს Qwen-ს და Apple Foundation Model-ს შიდა სტრუქტურაში. მათ შეეძლოთ ამ კონვერსიის გაშვება დღესვე.

აკადემიური სფეროს მიღმა, [Litespark] (მაისის 2026) დემონსტრირებს ტერნარული ნეირონული ქსელების მუშაობას მომხმარებლის CPU-ებზე custom SIMD კერნელების მეშვეობით. [PD-Swap] (დეკემბერი 2025) აჩვენებს 1.58-ბიტიანი ტრანსფორმერების მუშაობას edge FPGA-ებზე — ჩიპებზე, რომლებსაც გაცილებით ნაკლები compute-ი აქვთ, ვიდრე iPhone-ის Neural Engine-ს. თუ 20-დოლარიან FPGA-ს შეუძლია ამის გაკეთება, iPhone 12-საც შეუძლია.

აპარატურული კარი ციფრებით #

მოწყობილობაჩიპიRAMNeural Engine TOPSწელიApple Intelligence?
iPhone 11A134 გბ6 TOPS2019არა (iOS 18-მა დატოვა)
iPhone 12A144 გბ11 TOPS2020არა
iPhone 13A154 გბ15.8 TOPS2021არა
iPhone 14A166 გბ17 TOPS2022არა
iPhone 15A166 გბ17 TOPS2023არა
iPhone 15 ProA17 Pro8 გბ35 TOPS2023დიახ
iPhone 16A188 გბ35 TOPS2024დიახ
iPhone 16 ProA18 Pro8 გბ35 TOPS2024დიახ
iPhone 17 (სავარაუდო)A198–12 გბ~45 TOPS2025დიახ

ხაზი გაყვანილია A17 Pro-ზე. 2-ჯერადი TOPS ნახტომი A16-დან (17) A17 Pro-მდე (35) რეალურია, მაგრამ არა კატეგორიული. ორივეს შეუძლია 1.2 გბ-იანი მოდელის გაშვება. 8 გბ რამ-ის წინააღმდეგ 6 გბ მნიშვნელოვანია KV ქეშისთვის გრძელ კონტექსტზე, მაგრამ BitNet Sparse ვარიანტი (600 მბ) ტოვებს 5+ გბ თავისუფალ ადგილს 6 გბ-იანი iPhone 14-ზე.

რატომ აკეთებს Apple ამას მაინც #

სამი მიზეზი, კორპორატიული წონით დალაგებული:

შემოსავლები. დაახლოებით 250 მილიონი აქტიური iPhone-ია A16 ან უფრო ძველი, Apple-ის განცხადებებისა და ანალიტიკოსების შეფასებების მიხედვით 2025–2026 წლების ციკლისთვის. თუ ამ მომხმარებლების მხოლოდ 10% განაახლებს მოწყობილობას Apple Intelligence-ის მისაღებად — ფუნქცია, რომლის შესახებაც ისინი უკვე ორი წელია სმენენ — ეს არის 25 მილიონი ერთეული საშუალო გასაყიდი ფასით 900$, ანუ 22 მილიარდი დოლარი აპარატურული შემოსავლების სახით. iOS 27-ის მოწყობილობების უფლებამოსილების კარი არის 22-მილიარდიანი შემოსავლების წინაწევი, რომელიც დამალულია პროგრამული ფუნქციის რელიზში.

ეკოსისტემური დაბმა. Apple Intelligence ინტეგრირებულია Photos, Mail, Messages, Notes და Siri-სთან. როგორც კი მას iPhone 15 Pro-ზე მიიღებთ, ყიდულობთ Mac-ს Apple Silicon-ით, რათა გამოცდილება გააგრძელოთ, AirPods-ებს, რომლებიც შეუფერხებლად წყმდება, Apple TV-ს, რომელიც იმავე ინტელექტუალურ ფენას იყენებს. აპარატურული კარი ასევე დაბმის ამჩქარებელია: მომხმარებლები, რომლებიც მას გამოტოვებენ, მოკლულნი არიან Apple-ის ეკოსისტემის AI ფაზიდან მომდევნო 4–5 წლის განმავლობაში.

AI ნარატივზე კონტროლი. Apple-ს არ სურს, რომ მომხმარებლებმა გაუშვან ღია კოდის 1.58-ბიტიანი Qwen ან LLaMA ლოკალურად — ეს კონკურენციას უწევს Apple Intelligence-ს, რომელსაც Apple (საბოლოოდ) ფასიან სააბონენტო პაკეტად გაყიდის. აპარატურული კარი ინარჩუნებს „AI iPhone-ზე“ გამოცდილებას Apple-ის ბრენდირებულ და კონტროლირებად. ეს არის იმავე Apple AI Safety walled-garden ლოგიკის ნაწილი — რაც უფრო მჭიდროა კარი, მით ნაკლები ალტერნატიული AI ზედაპირები აქვს Apple-ს დასაცავად.

რას ნიშნავს სინამდვილეში „Memory Wall“ #

HGF-ის ნაშრომის ჩამოყალიბება აქ მნიშვნელოვანია. „Memory Wall“ არის ნაპრალი იმის შორის, თუ რა სიჩქარით შეუძლია CPU-ებს გამოთვლა და რა სიჩქარით შეუძლია მეხსიერებას მონაცემების მიწოდება. 16-ბიტიანი LLM-ისთვის ეს ნაპრალი უზარმაზარია: მოდელი ძალიან დიდია, რათა ჩიპს საკმარისად სწრაფად მიაწოდოს მონაცემები. 1.58-ბიტიანი მოდელისთვის ეს ნაპრალი ქრება: 1.2 გბ ეტევა LPDDR5 გამტარუნარიანობაში, Neural Engine-ი შეძლებს საკუთარი თავის კვებას და ბოთლის ყელი ხდება ტოკენების გენერირების ლატენცია და არა მეხსიერება.

A14-ის Neural Engine-ს შეუძლია 1.58-ბიტიანი მოდელის გაშვება. A13-ს, ჩიპს iPhone 11-ში, შეუძლია მისი გაშვება უფრო ნელა, მაგრამ მაინც შეუძლია. მეხსიერების გამტარუნარიანობა, და არა compute TOPS, არის ის, რასაც BitNet-ის ოჯახი განბლოკავს. და iPhone 12 და უფრო ახალ მოდელებს აქვთ ეს გამტარუნარიანობა.

საინჟინრო გზა, რომელიც Apple-ს დღესვე შეუძლია გაშვება #

ნაბიჯირარატომ
1აიღოს Apple Foundation Model (3B პარამეტრები)უკვე გაწვრთნილია, უკვე ოპტიმიზირებულია Apple-ის აპარატურისთვის
2BitDistill 1.58-ბიტიან სიზუსტემდე~600 მბ მოდელის ზომა, ეტევა 4 გბ რამ-ში KV ქეშისთვის ადგილით
3Sparse-BitNet pruning-ის დამატებადაქვეითება 300 მბ-მდე, ეტევა თუნდაც 3 გბ-იან iPhone 11-ზე
4Recover-LoRA fine-tune Apple Intelligence დავალებებზეაღიდგინოს კვანტიზაციით გამოწვეული ხარისხის დანაკარგი
5გაუშვას როგორც iOS 26.5 განახლება iPhone 12+ עבורუკან გაიტანოს ფუნქცია, ნაცვლად მომავალზე დაბლოკვასი

ეს არის 4-თვიანი საინჟინრო პროექტი. Apple-ს ჰყავს მკვლევრები, აპარატურა (ყოველი iPhone 12 და უფრო ახალი) და პროგრამული სტეკი (Core ML უკვე უჭერს მხარს 1-ბიტიან და 2-ბიტიან კვანტიზებულ მოდელებს mlpackage-ს მეშვეობით). მიზეზი, რატომაც ეს არ ხდება, არ არის ტექნიკური. ის კომერციულია — და Apple-ის გაღრმავებული პარტნიორობა Anthropic-თან Project Glasswing და Mythos კიბერუსაფრთხოების პროექტებზე აჩვენებს, თუ სად უნდა წავიდეს AI compute-ი, რომელიც არ არის on-device.

რას ნიშნავს ეს iOS 27-ის ციკლისთვის #

iOS 27-ის მოწყობილობების უფლებამოსილების კარი წარმოდგება როგორც აპარატურული მოთხოვნა. პრეზენტაცია იტყვის, რომ Apple Intelligence „საჭიროებს Neural Engine-ს A17 Pro-ში“ ან მსგავს სიტყვებს. პრეზენტაცია იქნება ტექნიკურად დასაბუთებული მხოლოდ ყველაზე მძიმე Apple Intelligence ფუნქციებისთვის — on-device გამოსახულების გენერირება, რთული მულტი-ნაბიჯიანი აგენტური ნაკადები და on-device თარგმნა ძალიან განსხვავებული სკრიპტების მქონელ ენებს შორის.

Apple Intelligence-ის უმეტესი ნაწილისთვის — იმ ნაწილებისთვის, რომლებიც აჯამებენ Mail-ს, წერენ პასუხებს Messages-ში, ქმნიან Genmoji-ს, პრიორიტეტიზებენ შეტყობინებებს, გადამუშავებულ Siri-ს — აპარატურული კარი არ არის საჭირო. 1.58-ბიტიანი / 2-ბიტიანი / Sparse-BitNet კვლევების სტეკი ამტკიცებს ამას. Apple-ის გადაწყვეტილება, რომ ეს ფუნქციები დააბლოკოს, არის ბიზნეს გადაწყვეტილება და არა საინჟინრო. სრული iOS 27 მოწყობილობების თავსებადობის განხილვა აღწერს, თუ რომელ Apple Intelligence ფუნქციებს რეალურად სჭირდება A17 Pro+ კარი.

გულწრფელი ჩამოყალიბება #

Apple-ს აქვს საინჟინრო შესაძლებლობები. iPhone 12-ს, ექვსი წლის სიახლის მქონე მოწყობილობას, შეუძლია გაუშვას Apple Intelligence 2026 წელს, თუ Apple გადაწყვეტს კვანტიზებული მოდელის გაშვებას. გადაწყვეტილება, რომ ეს არ გააკეთოს, რაციონალურია შემოსავლების თვალსაზრისით, დასაბუთებული მარკეტინგის თვალსაზრისით და არაგულწრფელია საინჟინრო კომუნიკაციის თვალსაზრისით. შემოსავლების კარის აპარატურულ მოთხოვნად gọiება, იმ 1.5-ბიტიანი კვანტიზაციის კვლევების აღიარების გარეშე, რომლებმაც ის ზედმეტი გახადეს, არის განზრახ გამოტოვება.

250 მილიონი iPhone მომხმარებელი A16-ზე და უფრო ძველ მოდელებზე არ არიან დაბლოკილნი თავიანთი ტელეფონებით. ისინი დაბლოკილნი არიან Apple-ის P&L-ით (მოგება და ზარალი).

წყაროები #

ასევე વાંચો #