Hvað er forvinnsla gervigreindar?

Hvað er forvinnsla gervigreindar?

Stutt svar: Forvinnsla gervigreindar er safn endurtakanlegra skrefa sem breyta hráum gögnum með mikilli dreifni í samræmd líkaninntak, þar á meðal hreinsun, kóðun, kvarðastærð, táknvæðingu og myndbreytingar. Þetta skiptir máli vegna þess að ef þjálfunarinntak og framleiðsluinntak eru ólík geta líkön bilað hljóðlega. Ef skref „lærir“ færibreytur skal aðlaga það aðeins að þjálfunargögnum til að forðast leka.

Forvinnsla gervigreindar er allt sem þú gerir við hrágögn fyrir (og stundum á meðan) þjálfun eða ályktun stendur svo að líkan geti í raun lært af þeim. Ekki bara „hreinsun“. Það er að hreinsa, móta, stækka, kóða, auka og pakka gögnum í samræmda framsetningu sem mun ekki hljóðlega trufla líkanið þitt síðar. [1]

Lykilatriði:

Skilgreining : Forvinnsla breytir hráum töflum, texta, myndum og skrám í eiginleika sem eru tilbúnir fyrir líkan.

Samræmi : Notið sömu umbreytingar við þjálfun og ályktanir til að koma í veg fyrir misræmisvillur.

Leki : Passa aðeins við kvarða, kóðara og táknara á þjálfunargögn.

Endurtekningarhæfni : Byggið upp leiðslur með skoðanlegri tölfræði, ekki tilfallandi raðgreiningum á minnisbókarfrumum.

Framleiðslueftirlit : Fylgist með skekkju og reki svo að inntak skerði ekki smám saman afköst.

Greinar sem þú gætir viljað lesa eftir þessa:

🔗 Hvernig á að prófa gervigreindarlíkön fyrir raunverulega frammistöðu
Hagnýtar aðferðir til að meta nákvæmni, áreiðanleika og skekkju fljótt.

🔗 Er texti-í-tal gervigreind og hvernig virkar hún?
Útskýrir grunnatriði TTS, helstu notkun og algengar takmarkanir í dag.

🔗 Getur gervigreind lesið handskrift nákvæmlega í dag
Fjallar um áskoranir í greiningu, bestu verkfærin og ráð um nákvæmni.

🔗 Hversu nákvæm er gervigreind í algengum verkefnum
Brýtur niður nákvæmnisþætti, viðmið og raunverulegan áreiðanleika.


Forvinnsla gervigreindar á einföldu máli (og hvað hún er ekki) 🤝

Forvinnsla gervigreindar er umbreyting á hráum inntaksgögnum (töflum, texta, myndum, skrám) í eiginleika sem eru tilbúnir fyrir líkan. Ef hrá gögn eru óreiðukennd bílskúr, þá felst forvinnsla í því að merkja kassa, henda brotnu drasli og stafla hlutum svo þú getir gengið í gegnum þau án þess að meiða þig.

Það er ekki líkanið sjálft. Það er efnið sem gerir líkanið mögulegt:

  • að breyta flokkum í tölur (einn-heitir, raðtölur o.s.frv.) [1]

  • að breyta stórum tölulegum sviðum í skynsamleg svið (stöðlun, lágmarks-hámarks o.s.frv.) [1]

  • að auðkenna texta í inntaksauðkenni (og venjulega athyglismaska) [3]

  • að breyta stærð/klippa myndir og beita ákveðnum samanborið við handahófskenndar umbreytingar á viðeigandi hátt [4]

  • að byggja upp endurteknar leiðslur svo að þjálfun og „raunveruleg“ inntak víki ekki frá hvor annarri á lúmskan hátt [2]

Ein lítil hagnýt athugasemd: „forvinnsla“ felur í sér allt sem gerist stöðugt áður en líkanið sér inntakið . Sum teymi skipta þessu í „eiginleikaverkfræði“ á móti „gagnahreinsun“, en í raunveruleikanum þokast þessar línur.

 

Forvinnsla gervigreindar

Af hverju forvinnsla gervigreindar skiptir meira máli en fólk viðurkennir 😬

Líkan er mynstursamræmingaraðili, ekki huglesari. Ef inntak þitt er ósamræmi, lærir líkanið ósamræmi í reglum. Það er ekki heimspekilegt, það er sársaukafullt bókstaflegt.

Forvinnsla hjálpar þér að:

  • Bættu námsstöðugleika með því að setja eiginleika inn í framsetningar sem matsmenn geta notað áreiðanlega (sérstaklega þegar um er að ræða kvarða/kóðun). [1]

  • Minnkaðu hávaða með því að láta óreiðukennda veruleikann líta út eins og eitthvað sem líkan getur alhæft út frá (í stað þess að leggja á minnið undarleg gripi).

  • Koma í veg fyrir hljóðláta bilunarhami eins og leka og misræmi í lest/þjónun (það sem lítur „frábærlega“ út í sannprófun og svo birtist í framleiðslu). [2]

  • Hraðaðu ítrun því endurteknar umbreytingar slá út spagettí úr minnisbók alla daga vikunnar.

Einnig er það þar sem mikið af „fyrirmyndarframmistöðu“ kemur í raun frá. Eins og ... ótrúlega mikið. Stundum finnst mér það ósanngjarnt, en það er veruleikinn 🙃


Hvað gerir góða forvinnsluleiðbeiningu fyrir gervigreind ✅

„Góð útgáfa“ af forvinnslu hefur venjulega þessa eiginleika:

  • Endurtakanlegt : sama inntak → sama úttak (engin dularfull handahófskennd nema um vísvitandi aukningu sé að ræða).

  • Samræmi í þjálfun : allt sem þú gerir á þjálfunartíma er beitt á sama hátt á ályktunartíma (sömu aðlöguð færibreytur, sömu flokkakort, sama stilling táknara o.s.frv.). [2]

  • Lekaöryggi : ekkert í mati/prófun hefur áhrif á neitt aðlögunarskref . (Meira um þessa gildru síðar.) [2]

  • Athuganlegt : þú getur skoðað hvað hefur breyst (tölfræði um eiginleika, hvað vantar, fjöldi flokka) svo kembiforrit eru ekki verkfræði byggð á titringi.

Ef forvinnslan þín er hrúga af minnisbókarreitum sem kallast final_v7_really_final_ok ... þá veistu hvernig það er. Það virkar þangað til það gerir það ekki lengur 😬


Kjarnaeiningar forvinnslu gervigreindar 🧱

Hugsaðu um forvinnslu sem safn af byggingareiningum sem þú sameinar í leiðslu.

1) Þrif og staðfesting 🧼

Dæmigert verkefni:

  • fjarlægja tvítekningar

  • meðhöndla vantar gildi (sleppa, reikna út eða tákna vantar gildi beint)

  • framfylgja gerðum, einingum og sviðum

  • greina gallaða inntak

  • staðla textasnið (blankbil, há- og lágstafareglur, sérkennileg Unicode-einkenni)

Þessi hluti er ekki glæsilegur, en hann kemur í veg fyrir afar heimskuleg mistök. Ég segi það með kærleika.

2) Kóðun flokkunargagna 🔤

Flestar gerðir geta ekki notað hráa strengi eins og „red“ eða „premium_user“ .

Algengar aðferðir:

  • Einheit kóðun (flokkur → tvíundardálkar) [1]

  • Raðkóðun (flokkur → heiltala ID) [1]

Lykilatriðið er ekki hvaða kóðara þú velur - heldur að vörpunin haldist stöðug og „breyti ekki um lögun“ milli þjálfunar og ályktunar. Þannig endarðu með líkani sem lítur vel út án nettengingar en virkar eins og ásótt á netinu. [2]

3) Eiginleikastærðun og staðlun 📏

Stærð skiptir máli þegar eiginleikar eru á mjög mismunandi sviðum.

Tvær klassískar:

  • Staðlun : fjarlægja meðaltal og kvarða til einingardreifni [1]

  • Lágmarks-hámarks kvarðan : kvarða hvern eiginleika í tiltekið svið [1]

Jafnvel þegar þú notar líkön sem „að mestu leyti ráða við“, gerir stærðarbreytingar oft auðveldari að rökræða um leiðslur - og erfiðara að brjóta þær óvart.

4) Eiginleikaverkfræði (þ.e. gagnlegt svindl) 🧪

Þetta er þar sem þú auðveldar líkaninu starf með því að búa til betri merki:

  • hlutföll (smell / birtingar)

  • Rúllandi gluggar (síðustu N daga)

  • fjöldi (atburðir á hvern notanda)

  • logaritmískar umbreytingar fyrir þunghalaðar dreifingar

Þetta er list. Stundum býrðu til eitthvað, ert stoltur af því ... og það gerir ekkert. Eða verra, það særir. Það er eðlilegt. Ekki tengjast einhverjum tilfinningalega - þau elska þig ekki til baka 😅

5) Að skipta gögnum á réttan hátt ✂️

Þetta hljómar augljóst þangað til það er það ekki:

  • handahófskennd skiptingar fyrir iid gögn

  • Tímabundin skipting fyrir tímaröð

  • flokkaðar skiptingar þegar einingar endurtaka sig (notendur, tæki, sjúklingar)

Og það sem skiptir máli: skipting áður en forvinnsla sem lærir af gögnum er sett upp . Ef forvinnsluskrefið þitt „lærir“ breytur (eins og meðaltöl, orðaforða, flokkakort), verður það aðeins að læra þær með þjálfun. [2]


Forvinnsla gervigreindar eftir gagnategund: töflur, texti, myndir 🎛️

Forvinnsla breytir lögun eftir því hvað þú gefur líkaninu.

Töflugögn (töflureikna, skrár, gagnagrunnar) 📊

Algeng skref:

  • Stefna um vantar virði

  • flokkunarkóðun [1]

  • kvarða töluleg dálka [1]

  • meðhöndlun útlægra aðila (lénsreglur vinna „handahófskennda klippingu“ oftast)

  • afleiddir eiginleikar (samantektir, töf, snúningstölfræði)

Hagnýt ráð: skilgreindu dálkahópa skýrt (töluleg vs. flokkuð vs. auðkenni). Framtíðarsjálf þitt mun þakka þér.

Textagögn (NLP) 📝

Forvinnsla texta felur oft í sér:

  • Táknmyndun í tákn/undirorð

  • umbreyting í inntaksauðkenni

  • fylling/stytting

  • að byggja upp athyglisgrímur fyrir hópvinnu [3]

Lítil regla sem sparar fyrirhöfn: fyrir uppsetningar sem byggja á spenni skaltu fylgja væntanlegum táknmyndastillingum líkansins og ekki nota frístíl nema þú hafir ástæðu. Frístíll er leiðin til að enda með „það þjálfast en það er skrýtið“

Myndir (tölvusjón) 🖼️

Dæmigerð forvinnsla:

  • breyta stærð / klippa í samræmda form

  • ákvarðandi umbreytingar fyrir mat

  • handahófskenndar umbreytingar til að auka þjálfun (t.d. handahófskennd skurðun) [4]

Eitt smáatriði sem fólk missir af: „handahófskenndar umbreytingar“ eru ekki bara vísbending - þær taka bókstaflega sýni af breytum í hvert skipti sem þær eru kallaðar. Frábært til að þjálfa fjölbreytileika, hræðilegt til mats ef gleymt er að slökkva á handahófskenndum stillingum. [4]


Gildran sem allir falla í: gagnaleki 🕳️🐍

Leki er þegar upplýsingar úr matsgögnum laumast inn í þjálfun - oft í gegnum forvinnslu. Það getur látið líkanið þitt líta töfrandi út við staðfestingu og síðan valdið þér vonbrigðum í raunveruleikanum.

Algeng lekamynstur:

  • kvarðastærð með því að nota tölfræði úr öllum gagnasöfnum (í stað þjálfunar eingöngu) [2]

  • að byggja upp flokkakort með því að nota train+test saman [2]

  • hvaða fit() eða fit_transform() skref sem „sér“ prófunarmengið [2]

Þumalputtaregla (einföld, hörð, áhrifarík):

  • Allt sem er í formi skrefs ætti aðeins að vera í formi á æfingum.

  • Síðan umbreytir staðfestingu/prófun með því að nota þann spennubreyti sem er til staðar. [2]

Og ef þú vilt fá innsæi til að athuga „hversu slæmt getur þetta verið?“: skjöl scikit-learn sýna dæmi um leka þar sem röng forvinnsluröðun gefur nákvæmni um 0,76 á handahófskenndum skotmörkum - og fellur síðan aftur niður í ~ 0,5 þegar lekinn er lagfærður. Þannig getur leki verið sannfærandi rangur. [2]


Að koma forvinnslu í framleiðslu án óreiðu 🏗️

Margar gerðir mistakast í framleiðslu, ekki vegna þess að líkanið er „slæmt“, heldur vegna þess að inntaksraunleikinn breytist - eða vegna þess að vinnsluferlið þitt breytist.

Framleiðslumiðuð forvinnsla felur venjulega í sér:

  • Vistaðir gripir (kóðaravörpun, kvarðastillingar, stillingar táknara) svo ályktunin noti nákvæmlega sömu lærtu umbreytingarnar [2]

  • Strangar inntakssamningar (væntanlegir dálkar/gerðir/svið)

  • Eftirlit með skekkju og reki , því framleiðslugögn munu færast til og frá [5]

Ef þú vilt fá skýrar skilgreiningar: Vertex AI Model Monitoring frá Google greinir á milli skekkju í þjálfunar- og dreifingar (framleiðsludreifing víkur frá þjálfun) og ályktunardrifts (framleiðsludreifing breytist með tímanum) og styður eftirlit með bæði flokkunar- og tölulegum eiginleikum. [5]

Vegna þess að óvæntar uppákomur eru dýrar. Og ekki af þeirri tegund sem skemmtilegar eru.


Samanburðartafla: algeng forvinnslu- + eftirlitsverkfæri (og fyrir hverja þau eru) 🧰

Tól / bókasafn Best fyrir Verð Af hverju þetta virkar (og smá hreinskilni)
scikit-learn forvinnsla Tafla ML leiðslur Ókeypis Traustir kóðarar + kvarðarar (OneHotEncoder, StandardScaler, o.s.frv.) og fyrirsjáanleg hegðun [1]
Táknmyndir fyrir faðmandi andlit Undirbúningur fyrir NLP inntak Ókeypis Framleiðir inntaksauðkenni + athyglisgrímur samræmda í gegnum keyrslur/líkön [3]
Torchvision umbreytir Sjónbreytingar + aukning Ókeypis Hrein leið til að blanda saman ákveðnum og handahófskenndum umbreytingum í einni leiðslu [4]
Eftirlit með gervigreindarlíkönum frá Vertex Rek-/skekkjugreining í vöru Greitt (ský) Skjáir eru með skekkju/rek og láta vita þegar farið er yfir þröskulda [5]

(Já, það eru ennþá skoðanir á borðinu. En það eru allavega heiðarlegar skoðanir 😅)


Hagnýtur gátlisti fyrir forvinnslu sem þú getur notað 📌

Fyrir þjálfun

  • Skilgreina inntaksskema (gerðir, einingar, leyfileg svið)

  • Endurskoða vantar gildi og afrit

  • Skipta gögnum á réttan hátt (handahófskennt / tímabundið / flokkað)

  • Forvinnsla á aðlögun aðeins í þjálfun ( fit / fit_transform helst í lest) [2]

  • Vista forvinnslugripi svo hægt sé að endurnýta þá með ályktunum [2]

Á æfingum

  • Notið aðeins handahófskennda aukningu þar sem það á við (venjulega aðeins þjálfunarskiptingu) [4]

  • Halda forvinnslu mats ákveðinni [4]

  • Fylgjast með breytingum á forvinnslu eins og líkanbreytingum (því þær eru það)

Fyrir dreifingu

  • Gakktu úr skugga um að ályktun noti sömu forvinnsluleið og artifacts [2]

  • Setja upp eftirlit með reki/skekkju (jafnvel grunnathuganir á eigindadreifingu duga langt) [5]


Djúpköfun: algeng mistök í forvinnslu (og hvernig á að forðast þau) 🧯

Mistök 1: „Ég mun bara fljótt koma öllu í eðlilegt horf“ 😵

Ef þú reiknar út kvarðabreytur á öllu gagnasafninu, þá lekur þú matsupplýsingum. Aðlaga á lest, umbreyta restinni. [2]

Mistök 2: flokkar reka út í ringulreið 🧩

Ef flokkunarvörpunin þín færist á milli þjálfunar og ályktunar getur líkanið þitt lesið heiminn hljóðlega rangt. Haltu vörpunum föstum með vistuðum gripum. [2]

Mistök 3: handahófskennd aukning læðist inn í matið 🎲

Handahófskenndar umbreytingar eru frábærar í þjálfun, en þær ættu ekki að vera „leynilega virkar“ þegar verið er að reyna að mæla frammistöðu. (Handahóf þýðir handahófskennt.) [4]


Lokaorð 🧠✨

Forvinnsla gervigreindar er sú agaða list að breyta óreiðukenndum veruleika í samræmda líkaninntak. Hún nær yfir hreinsun, kóðun, stækkanir, táknmyndun, myndbreytingar og - síðast en ekki síst - endurtekningarhæfar leiðslur og artifacts.

  • Gerðu forvinnslu af ásettu ráði, ekki af handahófi. [2]

  • Skiptið fyrst, passið aðeins við þjálfun, forðist leka. [2]

  • Notið forvinnslu sem hentar aðferðum (táknmyndagerðarforrit fyrir texta, umbreytingar fyrir myndir). [3][4]

  • Fylgstu með skekkju/reki í framleiðslu svo líkanið þitt fari ekki hægt og rólega út í vitleysu. [5]

Og ef þú ert einhvern tímann fastur, spurðu sjálfan þig:
„Myndi þetta forvinnsluskref enn vera skynsamlegt ef ég keyri það á morgun á glænýjum gögnum?“
Ef svarið er „uhh ... kannski?“, þá er það vísbendingin þín 😬


Algengar spurningar

Hvað er forvinnsla gervigreindar, í einföldu máli?

Forvinnsla gervigreindar er endurtakanlegt safn skrefa sem breyta hávaðasömum, dreifnum hrágögnum í samræmda inntak sem líkan getur lært af. Þetta getur falið í sér hreinsun, staðfestingu, kóðun flokka, kvarða töluleg gildi, táknmyndun texta og beitingu myndbreytinga. Markmiðið er að tryggja að þjálfun og framleiðsluályktun sjái „sömu“ inntak, þannig að líkanið fari ekki út í ófyrirsjáanlega hegðun síðar.

Hvers vegna skiptir forvinnsla gervigreindar svona miklu máli í framleiðslu?

Forvinnsla skiptir máli því líkön eru viðkvæm fyrir inntaksframsetningu. Ef þjálfunargögn eru kvarðuð, kóðuð, táknuð eða umbreytt öðruvísi en framleiðslugögn, geturðu fengið misræmi í lest/þjóni sem líta vel út án nettengingar en mistakast hljóðlega á netinu. Sterkar forvinnsluleiðslur draga einnig úr hávaða, bæta námsstöðugleika og flýta fyrir ítrun því þú ert ekki að greina flækjur úr fartölvum.

Hvernig forðast ég gagnaleka við forvinnslu?

Einföld regla virkar: allt með aðlögunarskref verður aðeins að passa við þjálfunargögn. Þar á meðal eru kvarðar, kóðarar og táknarar sem læra breytur eins og meðaltöl, flokkakort eða orðaforða. Þú skiptir fyrst, passar við þjálfunarskiptinguna og umbreytir síðan staðfestingu/prófun með aðlöguðum umbreytir. Leki getur látið staðfestingu líta „töfrandi“ vel út og síðan hrunið í framleiðslunotkun.

Hver eru algengustu forvinnsluskrefin fyrir töflugögn?

Fyrir töflugögn felur venjuleg leiðsla í sér hreinsun og staðfestingu (gerðir, svið, vantar gildi), flokkunarkóðun (einn heitur eða raðtölukóðun) og tölulega kvarðastærð (stöðlun eða lágmarks-hámarks). Margar leiðslur bæta við lénsdrifinni eiginleikaverkfræði eins og hlutföllum, rúllandi gluggum eða talningu. Hagnýt venja er að skilgreina dálkahópa beint (töluleg vs. flokkunar- vs. auðkenni) svo umbreytingarnar þínar haldist samræmdar.

Hvernig virkar forvinnsla fyrir textalíkön?

Forvinnsla texta felur venjulega í sér að skipta út táknum í tákn/undirorð, breyta þeim í inntaksauðkenni og meðhöndla fyllingu/styttingu fyrir hópvinnslu. Mörg verkflæði í umbreytingarforritum búa einnig til athyglisgrímu samhliða auðkennunum. Algeng aðferð er að nota væntanlega táknmyndastillingu líkansins frekar en að vinna úr henni, því lítill munur á stillingum táknmynda getur leitt til niðurstaðna þar sem „það þjálfast en hegðar sér ófyrirsjáanlega“.

Hvað er öðruvísi við forvinnslu mynda fyrir vélanám?

Forvinnsla mynda tryggir venjulega samræmda lögun og meðhöndlun pixla: stærðarbreytingar/skurður, staðlun og skýra skiptingu á milli ákveðinna og handahófskenndra umbreytinga. Til mats ættu umbreytingar að vera ákveðnar svo mælikvarðar séu sambærilegir. Til þjálfunar getur handahófskennd aukning (eins og handahófskennd skurður) bætt áreiðanleika, en handahófskennd gildi verða að vera vísvitandi aðlöguð að þjálfunarskiptingu, ekki vera látin óviljandi vera virk við mat.

Hvað gerir forvinnsluleiðslu „góða“ í stað þess að vera brothætt?

Góð forvinnsluleiðsla fyrir gervigreind er endurtakanleg, lekaörugg og mælanleg. Endurtakanleg þýðir að sama inntak framleiðir sama úttak nema handahófskennd aukning sé vísvitandi. Lekaörugg þýðir að aðlögunarskref snerta aldrei staðfestingu/prófun. Mælanleg þýðir að þú getur skoðað tölfræði eins og fjölda eiginleika, fjölda flokka og dreifingu eiginleika þannig að villuleit byggist á sönnunargögnum, ekki innsæi. Leiðslaleiðsla slær alltaf við sértækar minnisbókarraðir.

Hvernig get ég haldið þjálfun og forvinnslu ályktana samræmdri?

Lykilatriðið er að endurnýta nákvæmlega sömu lærðu gripina við ályktun: kvarðabreytur, kóðaravörpanir og táknastillingar. Þú vilt einnig inntakssamning (væntanlegir dálkar, gerðir og svið) svo framleiðslugögn geti ekki hljóðlega rekið í ógild form. Samræmi snýst ekki bara um að „gera sömu skrefin“ - það snýst um að „gera sömu skrefin með sömu aðlöguðum breytum og vörpunum“

Hvernig get ég fylgst með forvinnsluvandamálum eins og reki og skekkju með tímanum?

Jafnvel með trausta leiðslu breytast framleiðslugögn. Algeng aðferð er að fylgjast með breytingum á dreifingu eiginleika og vara við skekkju í þjálfunarþjónun (framleiðsla víkur frá þjálfun) og ályktunardrifti (framleiðsla breytist með tímanum). Eftirlit getur verið létt (einföld dreifingareftirlit) eða stýrt (eins og Vertex AI Model Monitoring). Markmiðið er að greina breytingar á inntaki snemma - áður en þær draga hægt og rólega úr afköstum líkansins.

Heimildir

[1] scikit-learn API:
sklearn.preprocessing (kóðarar, kvarðar, staðlun) [2] scikit-learn: Algengar gryfjur - Gagnaleki og hvernig á að forðast hann
[3] Hugging Face Transformers skjöl: Táknbreytarar (inntaksauðkenni, athyglisgrímur)
[4] PyTorch Torchvision skjöl: Umbreytingar (Stærðarbreyting/Staðlun + handahófskenndar umbreytingar)
[5] Google Cloud Vertex AI skjöl: Yfirlit yfir líkaneftirlit (eiginleikaskekkja og rek)

Finndu nýjustu gervigreindina í opinberu versluninni fyrir gervigreindaraðstoðarmenn

Um okkur

Til baka á bloggið