
Ideen om at have en model for Kraftig AI kører direkte på mobilen At være cloud-fri lyder fantastisk ... indtil du rent faktisk prøver det. Hvis du har en Galaxy S24 Ultra, downloader modeller som Qwen 3.5 4B og kører dem med apps som PocketPal, Offgrid eller ChatterUI, vil du støde på en mindre glamourøs virkelighed: 4 tokens i sekundetEvighed indtil man ser den første token, terminalen bliver overophedet, og følelsen af, at ens super SoC slet ikke er i nærheden af at presse sin NPU, som markedsføringen lovede.
Samtidig taler sektoren konstant om NPU, lokal AI, Copilot-pc, Apple Neural Engine Og så videre. Producenter har i årevis pakket AI-acceleratorer ind i deres SoC'er, både i telefoner og bærbare computere, og forsikret os om, at de er fremtiden for personlig computerbrug. Problemet er, at med så mange akronymer og løfter er det nemt at fare vild: Hvad gør telefonens NPU præcist? Hvorfor ser CPU'en nogle gange ud til at yde bedre? Hvornår giver det mening at bruge cloudbaseret AI, og hvornår er det umagen værd at stole på lokal AI?
Hvad er NPU'en præcist i en mobil SoC, og hvilken rolle spiller den i lokal AI?
I en moderne smartphone er den såkaldte "processor" faktisk en SoC (System på Chip)På den samme siliciumchip finder du CPU, GPU, internetudbyder, modem, sikkerhedsenheder ... og i nogle år nu en NPU eller neural engine dedikeret til AI. Den erstatter ikke CPU'en eller GPU'en: den supplerer dem til en meget specifik type arbejde.
En NPU (Neural behandlingsenhedDet er en hardwareblok designet til at køre neurale netværk i et enormt tempo: tusindvis af multiplikations- og additionsoperationer parallelt, med lavpræcisionsdata (INT8, FP16, endda INT4) og med meget tæt hukommelse for at undgå at spilde tid på at flytte vægte og aktiveringer. Den kan ikke "lave lidt af hvert" som en CPU, men hvad den kan, gør den med brutal effektivitet.
Den specialisering passer perfekt til næsten alt, hvad vi i dag forstår som AI: computersynTalegenkendelse, billedklassificering, oversættelse, sprogmodellering og generelt ethvert moderne neuralt netværk. I stedet for at overbelaste CPU'en eller tænde GPU'en for hver AI-opgave, sender systemet disse operationer til NPU'en, som udfører dem med mindre energi og mindre varme.
Faktisk beskriver de fleste større producenter deres NPU på den måde. Qualcomm taler om mere ydeevne pr. watt til AI-arbejdsbelastninger; Huawei sælger det som nøglen til at udrette mere på kortere tid uden at dræne batteriet; Apple definerer det som en GPU-lignende motor til at accelerere matrixfoldninger og multiplikationer; AMD og Intel integrerer det i deres CPU'er for at aflaste AI-opgaver med lavt strømforbrug, mens Samsung insisterer på, at deres NPU er optimeret til samtidige matrixoperationer og kontinuerlig læring med akkumulerede data.
NPU'er: hverken nye eller eksklusive for mobil
Det kan se ud til, at NPU'er er dukket op ud af ingenting Med hypen omkring generativ AI er virkeligheden, at vi har levet med det i lommerne i næsten et årti uden overhovedet at være klar over det. I 2017 udgav Apple iPhone X med Face ID og Animoji takket være sin A11 Bionic-chip, som allerede havde en dedikeret "neurale motor", selvom få lagde mærke til navnet på det tidspunkt.
Siden da har Apple pustet den Apple Neural Engine op generation efter generation. ANE'en for iPhone X var omkring... 0,6 TOPS (billioner af operationer pr. sekund) i FP16. I dag er en A17 Pro i en iPhone 15 Pro omkring 35 TOPS, og M4-chippen til iPad og Mac går op til omkring 38 TOPS. Det vil sige, at vi på få år er gået fra en "token" neural motor til en, der er i stand til at køre modeller, som vi tidligere kun så i datacentre.
Google har gjort noget lignende på sin side med TPU (Tensor Processing Unit)Først i deres datacentre med gigantiske chips til træning af neurale netværk, og derefter i Pixel-telefoner med Google Tensor-familien (Pixel 6, 7, 8…). Der integrerer de en TPU/NPU i SoC'en for at presse kamera-, stemme- og i stigende grad generative AI-funktioner ind i selve enheden.
I pc-verdenen har Intel og AMD været nødt til at forbedre deres spil. Intel inkluderer NPU'er i sine Core Ultra (Meteor Lake) processorer med omkring 8-12 TOPS, mens AMD debuterede Ryzen AI i sine Ryzen 7040 bærbare processorer med op til 10 TOPS, og endda nåede 39 TOPS NPU i en kort portion Ryzen 8000 desktop-processorer. Ideen er den samme: tager AI til kanten og ikke være så afhængig af skyen for alting.
Hvordan en NPU fungerer: hvorfor den er så god til AI ... og så dårlig til alt andet
Hvis vi mentalt åbner chippen, ligner en NPU mere en matrixmultiplikationsfabrik end en klassisk CPU. I stedet for et par meget alsidige kerner har den titusindvis af simple ALU'er arrangeret i en matrix eller et netværk, der er i stand til at udføre "multiplikér-akkumulér" (MAC) produkter parallelt, ofte med lav præcision.

Tricket er at organisere disse enheder som en slags systolisk matrixData kommer ind på den ene side, passerer fra celle til celle, og hver celle udfører sin lille operation, før resultatet sendes til den næste. Dette minimerer adgang til hovedhukommelsen og maksimerer brugen af MAC-enhederne, hvilket er præcis, hvad et neuralt netværk har brug for, når det skal udledes.
For at opnå denne effektivitet giver NPU'en afkald på mange af de funktioner, der gør en CPU eller GPU dyrere: den mangler kompleks branch prediction logic, et omfattende cache-system og understøttelse af alle generelle instruktioner. Dens ISA er typisk minimal. DMA til flytning af data, punktprodukter, summer, aktiveringer og ikke meget andet.
Han spiller også med numerisk præcisionMens en traditionel CPU eller GPU fungerer komfortabelt i 32-bit eller 64-bit floating-point-enheder, fungerer en NPU typisk i INT8, FP16 og endda INT4. For et trænet neuralt netværk er dette præcisionsniveau tilstrækkeligt til at levere fremragende resultater, hvilket muliggør betydeligt flere operationer pr. cyklus med meget mindre energi pr. operation.
CPU, GPU, NPU og TPU: hvem gør hvad i AI
CPU'en forbliver den "generelle hjerne": den styrer operativsystemet, koordinerer opgaver og udfører kontrollogik. Den er i stand til at køre små modeller, men når du beder den om at håndtere et stort netværk eller opretholde vedvarende tekstgenerering, bliver den en flaskehals i forhold til latenstid og strømforbrug.
GPU'en er arbejdshesten for dyb læringDet omsætter arbejdet med at gengive grafik (mange lignende operationer på store vektorer) meget godt til træning og kørsel af neurale netværk. Moderne GPU'er inkorporerer også tensorkerner specifikke dem, der i praksis opfører sig som små NPU'er inde i selve GPU'en.
NPU'en er derimod udelukkende designet til AI-inferens. Den er ikke egnet til spil, rendering af grænseflader eller kompilering af kode, men den er ideel til at køre vision-, stemme- eller sprognetværk med en energieffektivitet, som GPU'en ikke kan matche i en mobiltelefon eller ultralet bærbar computer.
Googles TPU'er er en nær fætter: ASIC'er fokuseret på tensoroperationer for at accelerere AI-modeller, især i deres datacentre. Edge TPU'en på Coral Dev Board tilbyder for eksempel nogle 4 TOPPER med kun få wattIdeel til kameraer og IoT-enheder, der har brug for computervision i realtid uden at overophede eller bruge for meget strøm.
Kort sagt er den ideelle kombination i en moderne enhed: CPU til generel logik, GPU til grafikbelastninger og fleksibel parallel databehandling og NPU/TPU til neurale netværkHver enkelt gør sit eget, og når softwaren er velskrevet, fordeler systemet arbejdet ret intelligent.
Cloud AI vs. on-premise AI: Hastighed, privatliv og omkostninger
Indtil for nylig foregik næsten alt, hvad vi forbandt med "kraftfuld AI", i skyen: ChatGPT, Gemini, Stable Diffusion, avancerede assistenter... Mobiltelefoner fungerede kun som en dum terminal der sendte data og modtog et behandlet svar på en server fuld af GPU'er eller TPU'er.
Denne arkitektur har en åbenlys fordel: du kan køre gigantiske modeller uden at bekymre dig om slutbrugerens strømforbrug. En billig low-end-enhed og et topmodel får det samme resultat, fordi det hårde arbejde udføres af en processor. datacenter med dedikeret hardware.
Men det har også betydelige ulemper. latens Det afhænger helt af forbindelsen: Hvis du har dårlig dækning, er på et fly eller i en by med upålidelig ADSL, ophører mange funktioner med at være "magiske" og bliver direkte ubrugelige. Desuden kræver hver anmodning, at man sender data til tredjeparter og har tillid til, at de bliver håndteret korrekt.

Den lokale AI spiller præcis det modsatte spil: bring modellen til enheden og kør inferensen på enhedens egen CPU, GPU eller NPU. Dette eliminerer netværkslatens, muliggør offline AI og, vigtigst af alt, gør det Dine data behøver ikke at forlade telefonen, den bærbare computer eller bilen, medmindre du ønsker det.
Lokal AI er dog begrænset af, hvad hardwaren kan håndtere: RAM, VRAM, termisk effekt, batteriEn model med 70.000 milliarder parametre passer ikke komfortabelt på en telefon i dag; vi er nødt til at ty til reducerede, kvantiserede og stærkt optimerede versioner, hvis vi ønsker noget flydende og bæredygtigt.
Mobile NPU'er: fra kameraet til assistenten, inklusive lokale LLM'er
I smartphone-verdenen har NPU'er arbejdet stille og roligt i årevis med alt, der har med mobil fotografering og video, ansigtsgenkendelse, stemme og oversættelse. Producenter har tilføjet funktioner oveni.
I Apples økosystem håndterer Neural Engine Face ID, ansigts- og objektgenkendelse i galleriet, diktering, liveoversættelse, tekstgenkendelse i billeder, AR og en lang række andre opgaver, vi tager for givet. Med A16, A17 og M3/M4-familien begynder Apple at tage skridt, der gør det muligt. Siri og andre generative AI-funktioner fungerer på selve enheden uden så meget afhængighed af skyen, og udnytte de 30-40 TOPS af neurale motorer.
Google gør noget lignende med sine Tensor G2 og G3 i Pixel. Pixel 8 med sine Integreret TPU, kan køre reducerede versioner af modeller som PaLM 2 eller Gemini Nano på enheden til opgaver som oversættelse, højtlæsning af websteder, lokale resuméer, mere jævn indtastning eller kameratricks som Best Take og Audio Magic Eraser, alt sammen med chippen i gang uden konstant behov for at sende data til dens servere.
Qualcomm har på sin side brugt Hexagon NPU-motorer i Snapdragon-serien i flere generationer. Snapdragon 8 Gen 3 kan prale af en NPU, der er 98% hurtigere end Gen 2 og i stand til at køre LLM'er på op til 10.000 milliarder parametre på selve mobilenheden, med offentlige demonstrationer af stabil diffusion, der genererer billeder ved høj hastighed, og Llama 2 eller Llama 3, der kører helt offline.
MediaTek er ikke langt bagud med sine APU'er (AI-processorer) i Dimensity-serien og når opgaver som med den sjette generation af APU'er. AI-fotoremastering i realtid i mobiltelefoner som Oppo Find X8, og peger på det faktum, at den samme NPU-teknologi vil komme til fjernsyn, IoT og endda bilindustrien.
Hvad sker der i pc'er og biler med NPU'er
Inden for PC-arenaen har Microsoft lanceret kategorien af "PC med kunstig intelligens" Intel Core Ultra (Meteor Lake) er baseret på NPU'er integreret i Intel-, AMD- og Qualcomm SoC'er og inkorporerer en NPU på omkring 8-12 TOPS for at accelerere Windows 11-funktioner som baggrundssløring, syntetisk øjenkontakt, støjreduktion og i fremtiden dele af Copilot.
AMD debuterede Ryzen AI i Ryzen 7040-serien til bærbare computere og, kortvarigt, i Ryzen 8000-seriens stationære computere med en NPU på op til 39 TOPS. Selvom denne tilgang er blevet justeret, er budskabet klart: Fremtidens pc vil altid have en dedikeret AI-blok., ligesom den har haft en integreret GPU i årevis.
I bilindustrien bliver tingene meget mere avancerede. Tesla har to generationer af fuldt selvkørende hardware med dobbelte NPU'er: HW3 var omkring 144 TOPS og HW4 er omkring 200-250 TOPS, alt sammen for at behandle signaler fra en masse kameraer og sensorer i realtid og køre neurale netværk, der træffer kørselsbeslutninger på få millisekunder.
NVIDIA tager endnu et spring med sin Drive Thor-platform: en enkelt chip kan nå op til 1000 TOPS, eller 2000 TOPS med to sammenkædedeDen er designet til at centralisere både autonom kørsel og AI i kabinen (stemmeassistenter, førerovervågning, underholdning osv.). Filosofien er den samme: jo mere AI du vil integrere i bilen i realtid, jo mere mening giver en dedikeret accelerator i køretøjet.
Udover private biler er NPU'er også suveræne inden for sikkerhedskameraer, droner og robotter: enheder som Hailo-8 (26 TOPS med lav effekt) eller Intels Myriad og Googles Edge TPU tillader det computersyn i kanten uden at overbelaste netværk eller datacentre.
Lokal AI på den "rigtige" mobil: PocketPal, MNN Chat og andre
Ud over de funktioner, som producenten har besluttet, er der stadig flere brugere, der ønsker Kør dine egne sprogmodeller lokalt På din mobilenhed, uden at bruge ChatGPT, Gemini eller lignende apps. Det er her, apps som PocketPal, Offgrid, ChatterUI eller MNN Chat kommer ind i billedet.
PocketPal er en af de mest tilgængelige. Den giver dig mulighed for at downloade open source-modeller (Llama, Gemma, Phi, Qwen, Mistral…) i kompakte formater som GGUF og køre dem direkte på din telefon, offline. total privatlivPrompterne og svarene forlader aldrig enheden. Alt du behøver er en relativt moderne Android- eller iOS-mobiltelefon, et par 6-8 GB RAM og adskillige gigabyte ledig plads til modeller.
I praksis fungerer modeller med parametre mellem 1B og 4B (såsom Qwen2.5-1.5B, Llama 3.2 3B eller Qwen3-4B-Instruct) rimeligt godt på telefoner i mellemklassen. Den typiske ydeevne ligger dog normalt mellem 5 og 20 tokens pr. sekund i high-end, og endnu mindre i low-end, langt fra hvad der kan opnås på en server med en professionel GPU.
For at presse ekstra ydeevne ud, anbefales det på iPhone at bruge Metal og øge antallet af GPU-lag; på Android begynder nogle apps at udnytte dette. Vulkan, GPU og, i sjældne tilfælde, NPU via NNAPIAlligevel falder den reelle byrde i mange af disse løsninger stadig på CPU'en og GPU'en, og NPU'en forbliver underudnyttet, fordi softwarelaget ikke er modent.
Eksemplet med MNN Chat er illustrativt: det er en af de hurtigste apps, som mange brugere har prøvet på en S24 Ultra, men på bekostning af at bruge stærkt kvantiserede modeller, med et vist kompromis med kvaliteten, og uden at det er klart, om den fuldt ud udnytter Snapdragons NPU eller "kun" optimerer CPU/GPU-ruten rigtig godt.
Hvorfor din S24 Ultra ikke får 100% ud af sin NPU med Qwen 3.5 4B
Selvom SoC'en i en S24 Ultra eller S25 Ultra på papiret kan håndtere modeller med op til 10 milliarder parametre og mere end 40 TOPS AI-beregninger, sker det normalt det samme, når du installerer en LLM som Qwen 3.5 4B i en generisk app: Den starter hurtigt, varmes derefter op, ydeevnen falder og stabiliserer sig et godt stykke under forventningerne..
Hovedårsagen er, at modellen i de fleste tredjepartsapps kører på CPU'en eller GPU'en ved hjælp af generelle biblioteker (BLAS, Vulkan, Metal) uden direkte, detaljeret adgang til SoC'ens NPU. På mobile enheder eksponeres NPU'en typisk via API'er som NNAPI på Android eller Core ML på iOS, men ikke alle lokale LLM-frameworks er velintegrerede med dem, og producentens support varierer.
Resultatet er, at en simpel test, som den Nexa AI viste med en avanceret Galaxy, der genererer kontinuerlig tekst, tydeligt demonstrerer adfærden: hvis alt afhænger af CPU'en, er det i første omgang tokens per sekund er meget højeMen inden for få minutter stiger temperaturen, systemet sænker frekvenserne for at undgå at overskride den termiske grænse, og ydeevnen falder til et langt mere beskedent, men bæredygtigt niveau.
Når arbejdsbyrden virkelig skifter til NPU'en, ændrer profilen sig: man ser ikke en så spektakulær stigning i begyndelsen, men man ser en meget højere tokenproduktion. flad og stabil over tidmed en lavere temperatur og mindre indflydelse på batteriets levetid. Problemet er, i dag, at få en lokal LLM-app til at kommunikere problemfrit med den pågældende NPU.
Derudover er der andre fysiske begrænsninger, der ikke kan håndteres med software: mængden af tilgængelig RAM, SoC'ens hukommelsesbåndbredde og selve modellens størrelse. I mobile enheder er "komfortzonen" for LLM normalt i kvantiserede modeller på omkring 3-4 GB i størrelseOver det øges indlæsningstider, forbrug og nedregulering næsten altid.
Derfor, selvom markedsføringen af chips som Snapdragon 8 Gen 3 eller 8 Gen 4 taler om "10 milliarder LLM'er på enheden", forbliver brugeroplevelsen med tunge open source-modeller i praksis sart, især hvis appen ikke er designet fra bunden til at presse mest muligt ud af NPU'en ved hjælp af producentens officielle SDK'er.
Fordele og ulemper ved lokal AI på mobil
Det er enormt attraktivt at køre AI lokalt på mobile enheder. Til at begynde med, PrivacyHvis modellen er i telefonen, og der ikke er opkald til eksterne servere, forbliver alt, hvad du fortæller den, der. Dette er uvurderligt til følsomme formål (personlige noter, medicinske data, interne virksomhedsdokumenter osv.).
La latens Det er også til din fordel: du er ikke afhængig af netværket, så et tekstresumé, en hurtig oversættelse eller en smule argumentation ankommer så hurtigt som chippen tillader, uanset hvor du er. Selv i metroen uden signal eller på en tur uden data har du stadig en funktionel assistent.
Derudover reducerer det omkostningerne i stor skala at flytte arbejde fra skyen. Det er ikke det samme som, at millioner af brugere foretager hver forespørgsel til en klynge af betalte GPU'er, som det er at flytte nogle af disse anmodninger til... NPU'er, der allerede har betalt ved køb af mobiltelefonenDerfor presser virksomheder som Qualcomm, MediaTek og Apple så hårdt på for AI i enheder.
Afgiften er på den anden side. batteri og temperatur De lider, hvis man overbruger tunge modeller, kvaliteten af de mindre modeller når endnu ikke niveauet for GPT-4 eller Gemini Ultra, og oplevelsen kan være inkonsekvent, hvis softwaren stadig er i sine tidlige stadier: nedbrud, modeller, der ikke indlæses, frustrerende lange tider til den første token...
Derfor satser mange mærker på en model hybridEnkle, hurtige og responsive opgaver (grundlæggende oversættelser, tekstkorrektion, visse typer fotoredigering og genveje) håndteres direkte på mobilenheden, mens mere komplekse anmodninger eller dem, der kræver en avanceret processor, sendes til skyen. Dette skaber en problemfri og privat oplevelse uden at ofre mulighederne i mere kraftfulde enheder, når det er nødvendigt.
I sidste ende er NPU'ens rolle at få alt dette til at fungere: uden en yderst effektiv AI-kerne i SoC'en ville lokal AI være en lejlighedsvis luksus, der ville dræne batteriet på få minutter. Med en moden NPU og god software bliver det en problemfri funktion, der arbejder i baggrunden på din telefon, computer eller bil, mens du simpelthen ser alt reagere hurtigere og mere intelligent.
I dette scenarie er følelsen klar: AI lever ikke længere kun i skyen eller kun på servere hos store teknologivirksomheder, men er lander direkte i din lomme og på dit skrivebordDen mobile SoC's NPU er ikke kun til pynt: det er den lydløse motor, der gør den lokale AI rimelig hurtig, nyttig og privat, selvom vi stadig har brug for et spring inden for software og økosystem, så alle kan få mest muligt ud af det uden at skulle anstrenge sig eller nøjes med 4 tokens i sekundet.

