AI-põhine taju ja stseeni mõistmine
- Süvaõppe arhitektuurid

AI-põhine taju ja stseeni mõistmine

AI edusammud, eriti konvolutsiooniline närvivõrk, võimaldavad meil töödelda toores sensoorset teavet ja tuvastada objekte ning liigitada need kõrgema abstraktsioonitasemega klassidesse (jalakäijad, autod, puud jne). Nende kategooriate arvessevõtmine võimaldab autonoomsetel sõidukitel mõista nii sõiduki tulevase tegevuse kui ka teiste liikluses osalejate stseeni ja põhjuseid ning teha oletusi/ennustusi nende võimaliku koostoime kohta. Selles jaotises võrreldakse sagedamini kasutatavaid meetodeid, nende eeliseid ja nõrkusi.

Traditsioonilised tajutorustikud kasutasid käsitsi valmistatud algoritme funktsioonide eraldamiseks ja reeglipõhiseks klassifitseerimiseks (nt serva tuvastamine, optiline voog, värvide segmenteerimine). Kuigi need süsteemid olid tõhusad kontrollitud tingimustes, ei suutnud need üldistada reaalses maailmas toimuva sõidu tohutu varieeruvusega – valgustuse muutused, ilmastikutingimused, andurite müra ja ootamatud objektid.

Süvaõppe tulek muutis taju, võimaldades süsteemidel õppida funktsioone automaatselt suurtest andmekogumitest, mitte tugineda käsitsi loodud reeglitele. Sügavad närvivõrgud, mis on koolitatud miljonite märgistatud näidete põhjal, suudavad tabada keerulisi, mittelineaarseid seoseid töötlemata anduri sisendite ja semantiliste mõistete, nagu sõidukid, jalakäijad ja foorid, vahel.

Autonoomses sõidukis täidab tehisintellektil põhinev taju mitmeid põhiülesandeid:

Objekti tuvastamine – huvipakkuvate üksuste tuvastamine ja lokaliseerimine.
Semantiline ja eksemplari segmenteerimine – stseeni iga piksli või punkti klassifitseerimine.
Jälgimine – tuvastatud üksuste jälgimine aja jooksul.
Stseeni mõistmine – ruumilise, semantilise ja ajalise teabe integreerimine ühtseks esituseks.
Käitumisprognoos – dünaamiliste mõjurite tõenäoliste trajektooride ja kavatsuste ennetamine.

Süvaõppe arhitektuurid

Süvaõppe arhitektuurid moodustavad autonoomsete sõidukite tehisintellektil põhinevate tajusüsteemide arvutusliku selgroo. Need võimaldavad ekstraheerida keerulisi ruumilisi ja ajalisi mustreid otse toores sensoorsetest andmetest, nagu kujutised, punktipilved ja radaritulemused. Erinevad närvivõrgu paradigmad on spetsialiseerunud erinevat tüüpi andmetele ja ülesannetele, kuid tänapäevased tajuvirnad ühendavad sageli mitu arhitektuuri hübriidraamistikeks.

Konvolutsioonilised närvivõrgud (CNN)

Konvolutsioonilised närvivõrgud on arvutinägemise mudelite enim väljakujunenud klass. Nad töötlevad visuaalset teavet konvolutsioonifiltrite kihtide kaudu, mis õpivad tundma funktsioonide ruumilist hierarhiat – servadest ja nurkadest tekstuuride ja objektiosadeni. CNN-id on eriti tõhusad objekti tuvastamise, semantilise segmenteerimise ja kujutise klassifitseerimise ülesannete jaoks. Autonoomses sõidus kasutatavad silmapaistvad CNN-põhised arhitektuurid hõlmavad järgmist:

“ResNet” ja “EfficientNet” üldiste funktsioonide ekstraheerimiseks,
“Kiiremad R-CNN” ja “YOLO” perekonnad objektide reaalajas tuvastamiseks,
U-Net ja DeepLab tiheda semantilise segmenteerimise jaoks.

3D-konvolutsioonilised ja punktipõhised võrgud

Kui kaamerad jäädvustavad kahemõõtmelisi projektsioone, siis LiDAR ja radari andurid toodavad kolmemõõtmelisi punktipilvi, mis nõuavad spetsiaalset töötlemist. 3D-konvolutsioonivõrgud, nagu VoxelNet ja SECOND, diskretiseerivad ruumi voksliteks ja rakendavad geomeetriliste tunnuste õppimiseks konvolutsioonifiltreid. Teise võimalusena töötavad punktipõhised võrgud, nagu PointNet ja PointNet++ otse töötlemata punktikomplektidel ilma vokseliseerimiseta, säilitades peened geomeetrilised detailid. Need mudelid on kriitilise tähtsusega objektide kuju ja kauguse hindamisel 3D-ruumis, eriti keerulistes valgus- või ilmastikutingimustes.

Transformer Architectures

Algselt loomuliku keele töötlemiseks välja töötatud transformaatorivõrgud on kohandatud nägemiseks ja multimodaalseks tajumiseks. Need põhinevad enesetähelepanu mehhanismidel, mis võimaldavad mudelil jäädvustada pikamaa sõltuvusi ja kontekstuaalseid seoseid pildi erinevate osade või mitme anduri vahel. Autonoomses sõidus kasutatakse trafosid funktsioonide liitmiseks, linnuperspektiivi (BEV) kaardistamiseks ja trajektoori ennustamiseks. Märkimisväärsed näited hõlmavad DETR (tuvastustransformaator), BEVFormer ja TransFusion, mis ühendavad kaamerate ja LiDAR-ide teabe järjepidevaks ruumiliseks esituseks.

Korduvad ja ajalised mudelid

Autojuhtimine on oma olemuselt dünaamiline protsess, mis nõuab liikumise ja ajalise arengu mõistmist. Korduvaid närvivõrke (RNN), eriti pika lühiajalise mälu (LSTM) ja väravaga korduva üksuse (GRU) mudeleid kasutatakse vaatluste jadade töötlemiseks ja ajaliste sõltuvuste tabamiseks. Need on tavalised objektide jälgimise ja liikumise ennustamise puhul, kus on oluline säilitada liikuvate objektide identiteet ja kiirused aja jooksul. Uuemad arhitektuurid kasutavad ajalisi konvolutsioonivõrke või trafosid, et saavutada sarnaseid tulemusi suurema paralleelsuse ja stabiilsusega.

Graafilised närvivõrgud (GNN-id)

Graafiku närvivõrgud laiendavad sügavat õppimist relatsiooniandmetele, esitades stseene graafikutena, kus sõlmed vastavad agentidele või orientiiridele ja servad kodeerivad ruumilisi või käitumuslikke suhteid. See struktuur muudab GNN-id hästi sobivaks sõidukite, jalakäijate ja infrastruktuuri elementide interaktsiooni modelleerimiseks. Sellised mudelid nagu “VectorNet”, “Trajectron++” ja “Scene Transformer” kasutavad GNN-e agentide vaheliste sõltuvuste õppimiseks, toetades nii stseeni mõistmist kui ka trajektoori prognoosimist.

Kaasaegsed tajusüsteemid ühendavad sageli mitu arhitektuurilist perekonda ühtseteks raamistikeks. Näiteks võib CNN eraldada pildifunktsioone, punktipõhine võrk võib töödelda LiDAR-i geomeetriat ja trafo võib ühendada mõlemad ühiseks esituseks. Need hierarhilised ja multimodaalsed arhitektuurid võimaldavad tugevat tajumist erinevates keskkondades ja anduritingimustes, pakkudes kõrgetasemelist stseeni mõistmist, mis on vajalik turvaliseks autonoomseks käitumiseks.

Andmenõuded

Tehisintellektil põhinevate tajusüsteemide tõhusus sõltub põhiliselt nende arendustegevuse elutsükli jooksul kasutatud andmete kvaliteedist, mitmekesisusest ja haldamisest. Kuna sügavad närvivõrgud ei tugine selgesõnalisele programmeerimisele, vaid õpivad tõlgendama keskkonda suurtest, märkustega varustatud andmekogumitest, saavad andmed autonoomsete sõidukite usaldusväärse tajumise aluseks.

Tugev taju nõuab kokkupuudet kõigi töötingimustega, millega sõiduk võib kokku puutuda. Andmekogumid peavad sisaldama variatsioone järgmistes kohtades:

Sensori modaalsused – andmed kaameratest, LiDAR-ist, radarist, GNSS-ist ja IMU-st, mis peegeldavad taju multimodaalset olemust.
Keskkonnatingimused – päevased ja öised stseenid, erinevad aastaajad, ilmastikuefektid, nagu vihm, udu või lumi.
Geograafiline ja kultuuriline kontekst – linna-, eeslinna- ja maapiirkonnad; mitmekesised liiklusreeglid ja liiklusmärgid.
Käitumise mitmekesisus – tavaline sõit, agressiivsed manöövrid ja haruldased sündmused, nagu jaywalking või hädapeatused.
Edge juhtumid – haruldased, kuid ohutuse seisukohast kriitilised olukorrad, sealhulgas kokkupõrke lähedased või andurite ummistused.

Tasakaalustatud andmekogum peaks hõlmama nii tavalisi kui ka ebatavalisi olukordi, et tajumudelid üldistaksid ohutult väljaspool koolituse levikut. Kuna reaalmaailma andmete kogumine iga võimaliku stsenaariumi jaoks on ebapraktiline ja peaaegu võimatu, kasutatakse reaalmaailma andmekogumite täiendamiseks sageli simuleeritud või sünteetilisi andmeid. Fotorealistlikud simulaatorid nagu “CARLA”, “LGSVL” või “AirSim” võimaldavad genereerida märgistatud andurite andmeid kontrollitud tingimustes, sealhulgas harvadel või ohtlikel sündmustel. Sünteetilised andmed aitavad täita lünki reaalmaailma katvuses ja toetavad ülekande õppimist, kuigi sageli on vaja domeeni kohandamist, et leevendada nn “sim-to-real lõhet” - erinevusi simuleeritud ja tegelike andurite jaotuste vahel.

Annotatsioon ja märgistus

Järelevalvega õppemudelid põhinevad täpselt annoteeritud andmekogumitel, kus iga pilt, kaader või punktipilv on märgistatud semantilise teabega, nagu objektiklassid, piirdekastid või segmenteerimismaskid. Märkuste kvaliteet on kriitiline: ebajärjekindlad või mürarikkad sildid võivad õppeprotsessis süstemaatilisi vigu levitada. Kaasaegsed annotatsioonitorustikud ühendavad inimeste märgistamise automatiseerimisega – kasutades protsessi kiirendamiseks eelkoolitatud mudeleid, interaktiivseid tööriistu ja aktiivset õppimist. Kõrge täpsusega märgistamine on eriti nõudlik LiDAR-i punktipilvede ja mitme anduriga liitandmekogumite puhul, kus 3D-geomeetrilist järjepidevust tuleb säilitada kaadrite lõikes.

Eetilised ja privaatsuskaalutlused

Autonoomsel juhtimisel kasutatavad andmed hõlmavad sageli inimeste, sõidukite ja vara kujutisi. Privaatsuseeskirjade ja eetikastandardite järgimiseks tuleb andmestikud muuta anonüümseks, hägustada nägusid ja numbrimärke, krüpteerida asukohaandmeid ja säilitada turvaline andmesalvestus. Andmekogumi kujundamise õiglus ja kaasatus on võrdselt olulised, et vältida geograafiliste piirkondade või demograafiliste kontekstide eelarvamusi.

Stseeni mõistmine

Stseeni mõistmine on protsess, mille käigus autonoomne agent tõlgendab oma keskkonda sidusa mudelina – integreerib keskkonnakaardi, objektid, semantika ja dünaamika struktureeritud esitusse, mis toetab otsuste tegemist. See on sild töötlemata taju ja kõrgema taseme autonoomia funktsioonide, nagu planeerimine, ennustamine ja kontroll, vahel.

Stseeni mõistmise eesmärk on muuta killustatud andurituvastused ümbritseva stseeni tähenduslikuks, ajaliselt järjepidevaks mudeliks.

Stseeni mõistmine tugineb sageli mitmekihilistele esitustele:

Geomeetriline kiht – 3D hõivatuse ruudud või linnulennu (BEV) kaardid keskkonnast.
Semantiline kiht – klassisildid objektidele ja pindadele.
Relatsioonikiht – olemitevahelised lingid, suhted ja sõltuvused.
Ajaline kiht – lühiajaline evolutsiooni ja liikumise ennustamine.
Käitumiskiht – tuletatud kavatsused ja võimalikud manöövrid.

Relatsioonikiht fikseerib, kuidas liiklusstseenis olevad olemid suhtlevad üksteisega ja staatilise keskkonnaga. Kui alumised kihid (geomeetrilised ja semantilised) kirjeldavad, mis on olemas ja kus see asub, siis relatsioonikiht kirjeldab elementide omavahelist seost – ruumiliselt, funktsionaalselt ja käitumuslikult.

Ruumiline seos kirjeldab nt. vastastikune kaugus, suhteline kiirus ja trajektooride võimalik kokkupõrge. Funktsionaalsed seosed kirjeldavad seda, kui üks olem muudab, piirab või piirab teise funktsioone, nt liiklusrajad muudavad sõidukite liikumist, reelingud piiravad jalakäijate liikumist jne.

Neid seoseid saab selgesõnaliselt kujutada stseenigraafikutega, kus sõlmed esindavad üksusi ja servad suhteid, või kodeerida erinevat tüüpi närvivõrkudesse, nt visuaalkeele mudelitesse.

Stseeni mõistmine peab säilitama ajalise stabiilsuse kaadrite lõikes. Virvendustuvastused või ebajärjekindlad semantilised sildid võivad põhjustada ebastabiilse planeerimise. Tehnikad hõlmavad ajalist silumist, kaadritevahelist andmete seostamist järjepidevate objektiidentiteetide säilitamiseks või mäluvõrke, mis säilitavad kontekstuaalset teavet aja jooksul.

Stseeni mõistmise ajaline osa on tihedalt seotud kõigi dünaamiliste agentide liikumise ennustamise ja tulevaste trajektooride prognoosimisega. Kaks peamist lähenemisviisi on füüsikapõhised mudelid (nt konstantse kiirusega mudelid, jalgrattamudelid), mis on lihtsad ja tõlgendatavad, kuid keerukate interaktsioonidega piiratud, ja õppimispõhised mudelid, kus andmepõhised võrgud püüavad kinni kontekstipõhised sõltuvused ja mitmed võimalikud tulevikud (nt MultiPath, Trajectron++, VectorNet).

Table of Contents