Hur maskinseende gynnar dagens automatisering
2023-03-10
Maskinseende är en samling teknologier som utifrån bilder ger automatiserad utrustning (industriell eller annan) en avancerad uppfattning av den närmaste omgivningen. Utan program för maskinseende skulle digitala bilder inte vara något annat än enkla, osammanhängande samlingar av pixlar med olika färgvärden och ljusstyrkor för sådan utrustning. Med hjälp av maskinseende kan datorer (vanligtvis anslutna till maskinstyrningar) upptäcka kanter och former i sådana bilder för att i sin tur låta bearbetningsrutiner på högre nivå identifiera fördefinierade föremål av värde. Bilder är i detta avseende inte nödvändigtvis begränsade till fotografiska bilder i det synliga spektrumet, utan kan också innefatta bilder som erhålls med hjälp av signaler från infrarött ljus, laser, röntgen och ultraljud.
Figur 1: Användningen av maskinseende för mer sofistikerade tillämpningar med robotteknik ökar. (Bildkälla:John6863373 | Dreamstime.com)
En mycket vanlig tillämpning av maskinseende i industriella miljöer är att identifiera en särskild del i en behållare som innehåller en slumpmässig blandning av delar. Här kan maskinseende hjälpa plock- och placeringsrobotar att automatiskt plocka upp rätt del. Det skulle naturligtvis vara relativt enkelt att känna igen sådana delar med hjälp av bildåtergivning om de alla var snyggt organiserade och placerade på samma sätt på en bricka. Robusta algoritmer för maskinseende kan dock känna igen föremål som befinner sig på olika avstånd från kameran (och därför har olika storlek på bildsensorn) och rör sig i olika riktningar.
De mest sofistikerade systemen med maskinseende har möjliggjort nya och betydande konstruktioner som är mycket mer förfinade än att endast plocka upp saker ur en behållare - vilket kanske framför allt känns igen i exempelvis autonoma fordon.
Figur 2: Maskinseende ger system (industriella eller andra) en avancerad uppfattning av den omgivande miljön med hjälp av bilder. (Bildkälla: Wikimedia)
Tekniker relaterat till maskinseende
Termen maskinseende används ibland för att hänvisa till mer etablerade och effektiva matematiska metoder för att extrahera information ur bilder. Termen datorseende beskriver däremot vanligtvis moderna och mer beräkningskrävande system - inklusive tillämpningar med svarta lådor som använder maskininlärning eller artificiell intelligens (AI). Maskinseende kan dock även fungera som ett samlingsbegrepp för alla metoder för att extrahera avancerad information ur bilder. I detta sammanhang, beskriver datorseende dess underliggande teorier om användning.
Tekniker för att extrahera avancerad innebörd ur en stor mängd bilder. Inom forskningen betraktas sådana tekniker ofta som något som skiljer sig från maskinseende. I praktisk mening är de dock alla olika sätt för att åstadkomma maskinseende ... och i många fall överlappar de varandra.
Digital bildbehandling är en form av digital signalbehandling som innefattar bildförbättring, restaurering, kodning och komprimering. Fördelarna jämfört med analog bildbehandling är bland annat att brus och förvrängning minimeras och att det finns betydligt fler algoritmer. En tidig användning av bildförbättring var korrigering av de första närbilderna av månens yta. Detta skedde med hjälp av fotogrammetrisk kartläggning och brusfilter och korrigeringar för geometriska förvrängningar som uppstod på grund av kamerans placering i förhållande till månens yta.
Figur 3: Styrkretsen DLPC350 ger in- och utgångssignaler för synkronisering av visade exempel med en kamera. Den fungerar med digitala mikrospegelenheter (DMD) för att ge tredimensionellt maskinseende till utrustning inom industri, medicinteknik och säkerhet. Faktum är att tillämpningarna innefattar tredimensionell skanning men även metrologisystem. (Bildkälla: Texas Instruments)
Digital bildförbättring innebär ofta att kontrasten ökas och kan även skapa geometriska korrigeringar för betraktningsvinkel och objektivförvrängning. Komprimering uppnås vanligtvis genom att uppskatta en komplicerad signal med en kombination av cosinus-funktioner - en typ av Fourier-transformering, känd som diskret cosinus-transformering eller DCT. Filformatet JPEG är den mest populära tillämpningen av DCT. Vid restaurering av bilder kan man även använda sig av Fourier-transformering för att ta bort brus och oskärpa.
Fotogrammetri använder någon form av identifiering av kännetecken för att ta ut mått från bilder. Mätningarna kan innehålla tredimensionell information när flera bilder på samma sak har tagits från olika positioner. De enklaste systemen för fotogrammetri mäter avståndet mellan två punkter i en bild med hjälp av en skala. För detta syfte krävs normalt en känd skala i bilden.
Med hjälp av detektering av kännetecken kan datorer identifiera kanter och hörn i en bild. Detta är ett nödvändigt första steg för fotogrammetri liksom för identifiering av objekt och rörelser. Detektering av massa kan identifiera områden med kanter som är för mjuka för att kunna upptäcka kanter eller hörn.
Mönsterigenkänning används för att identifiera specifika föremål. I sin enklaste form kan detta innebära att man letar efter en specifik, väldefinierad, mekanisk del på ett transportband.
Tredimensionell rekonstruktion bestämmer den tredimensionella formen av föremål från tvådimensionella bilder. Det kan uppnås med metoder för fotogrammetri där höjden på gemensamma kännetecken (som identifieras i bilder från olika avläsningspositioner) bestäms genom triangulering. Tredimensionell rekonstruktion är också möjlig med hjälp av en enda tvådimensionell bild; här tolkar programmet (bland annat) de geometriska förhållandena mellan kanter eller skuggområden.
Figur 4: Tredimensionella skannrar tar tvådimensionella bilder av ett föremål för att skapa en tredimensionell modell. I vissa fall används de digitala modellerna sedan för att skriva ut tredimensionella kopior. (Bildkälla: Shenzhen Creality 3D Technology
Co. )
En människa kan med lätthet mentalt återskapa en kub från en enkel ritad linje och en sfär från en skuggad cirkel. Skuggningen ger en indikation på ytornas lutning. Slutledningen är dock mer komplicerad än den verkar eftersom skuggning är en endimensionell parameter medan lutning sker i två dimensioner. Detta kan leda till oklarheter - ett faktum som påvisas av konst som avbildar fysiskt omöjliga föremål.
Figur 5: En datoriserad avbildning av en tredimensionell form för ett arbetsstycke från en tvådimensionell bild är fylld av utmaningar.
Hur uppgifter för maskinseende rangordnas
Många system med maskinseende kombinerar gradvis ovanstående tekniker genom att börja med åtgärder på låg nivå och sedan gå vidare en efter en till åtgärder på högre nivåer. På den lägsta nivån, anses bildens samtliga pixlar vara data med hög bandbredd. Varje åtgärd i sekvensen identifierar därefter kännetecken i bilden och representerar information av intresse med relativt små datamängder.
Först kommer de låga åtgärdsnivåerna för bildförbättring och bildrestaurering, därefter kommer identifiering av kännetecken. Om flera sensorer används kan därför åtgärder på låg nivå utföras av utspridda processer som är avsedda för enskilda sensorer. När kännetecken i enskilda bilder har upptäckts kan mätningar med fotogrammetri på högre nivå utföras - liksom identifiering av föremål eller andra uppgifter som bygger på kombinerade data från flera bilder och sensorer.
Direktberäkningar och inlärningsalgoritmer
En direktberäkning i samband med maskinseende är en uppsättning matematiska funktioner som definieras manuellt av en programmerare. De matematiska funktionerna tar emot data, t.ex. pixelvärden i en bild, för att skapa utdata, som t.ex. koordinater för kanten på ett föremål. Inlärningsalgoritmer däremot skrivs inte direkt av människor utan utvecklas istället med hjälp av exempeldata som associerar tillförda datauppsättningar med önskade resultat. De fungerar därför som svarta lådor. De flesta sådana maskininlärningar använder nu djupinlärning baserad på artificiella neurala nätverk för att göra sina beräkningar.
Figur 6: Bildsensorer från iVu-serien kan identifiera arbetsstycken utifrån typ, storlek, placering, riktning och färg. De maskinseende komponenterna kan ta emot konfiguration samt övervaka en inbyggd skärm, ett fjärrstyrt HMI eller en dator. Kamera, styrenhet, objektiv och belysning är alla förintegrerade. (Bildkälla: Banner Engineering Corp.)
Enkla maskininlärningar för industriella tillämpningar är ofta mer tillförlitliga och mindre beräkningskrävande om de baseras på direktberäkningar. Det finns naturligtvis gränser för vad som kan uppnås med direktberäkning. Den skulle till exempel aldrig kunna utföra den avancerade mönsterigenkänning som krävs för att identifiera personer med hjälp av deras ansikten, särskilt inte från en videoinspelning av en offentlig plats full med människor. Däremot hanterar maskininlärning smidigt sådana tillämpningar. Det är därför inte konstigt att maskininlärning i allt större utsträckning används för maskinseende på lägre nivåer, t.ex. vid bildförbättring, restaurering och upptäckt av kännetecken.
Förbättra undervisningsmetoder (inte algoritmer)
Den utvecklade tekniken för djupinlärning har gjort det tydligt att det inte är algoritmernas inlärning i sig som behöver förbättras utan sättet som de tränas på. En sådan förbättrad träningsrutin kallas datacentrerat datorseende. Systemet för djupinlärning accepterar här mycket stora träningsuppsättningar bestående av tusentals, miljontals eller till och med miljarder bilder och lagrar sedan det resultat som algoritmerna extraherar ur varje bild. Algoritmerna lär sig i princip genom att öva på fungerande exempel och sedan använda ett "facit" för att kontrollera om de har kommit fram till rätt värden.
En gammal berättelse om digital mönsterigenkänning från förr fungerar som ett varnande exempel. Den amerikanska militären hade för avsikt att använda maskinseende för måligenkänning, och försvarsentreprenörernas demonstrationer identifierade tillförlitligt stridsvagnar tillverkade i Amerika och i Ryssland. De olika stridsvagnarna kunde alla urskiljas korrekt från leverantörens flygfoton, en efter en. Men när systemet testades på nytt med Pentagons eget bildbibliotek gav systemet felaktiga svar. Problemet var att försvarsföretagets bilder visade amerikanska stridsvagnar i öknar och ryska stridsvagnar på gröna fält. Systemet kände inte alls igen olika stridsvagnar utan i stället olikfärgade bakgrunder. Sensmoralen? Inlärningsalgoritmer måste få tillgång till noggrant utvald data för att vara användbar.
Slutsats: Synen på säkerhet i arbetsceller med robotteknik.
Maskinseende är inte längre en nischad teknik. Dess största ökning sker i industriella tillämpningar. Den mest dramatiska utvecklingen består av hur maskinseende nu kompletterar säkerhetssystem på industrianläggningar för att slå larm eller avge ljudmeddelanden när personal går in i ett arbetsområde utan skyddshjälm, mask eller annan korrekt skyddsutrustning. Maskinseende kan också fullända system som meddelar när mobila maskiner, t.ex. gaffeltruckar, kommer för nära människor.
Dessa och liknande system för maskinseende kan ibland ersätta fysiska skydd runt industrirobotar för att möjliggöra effektivare verksamheter. De kan också ersätta eller förbättra säkerhetssystem baserade på ljusridåer som helt enkelt stoppar maskinerna om personal går in i en arbetscell. När maskinseende övervakar fabriksgolvet runt arbetscellen är det möjligt för robotar i sådana celler att successivt minska hastigheten när människor närmar sig.
I takt med att industrilokalerna utvecklas för att kunna anpassa samverkande robotar och annan utrustning i arbetscellen för att göra det säkert för medarbetarna att röra sig (även medan utrustningen är i drift) kommer dessa och andra system som bygger på maskinseende att bli en mycket vanligare del i fabriksprocesserna.
Disclaimer: The opinions, beliefs, and viewpoints expressed by the various authors and/or forum participants on this website do not necessarily reflect the opinions, beliefs, and viewpoints of DigiKey or official policies of DigiKey.

