Stutt svar: Til að meta gervigreindarlíkön vel, byrjaðu á að skilgreina hvað „gott“ lítur út fyrir raunverulegan notanda og ákvörðunina sem fyrir liggur. Byggðu síðan upp endurtekningarhæf mat með dæmigerðum gögnum, ströngum lekastýringum og mörgum mælikvörðum. Bættu við streitu-, hlutdrægni- og öryggisathugunum og alltaf þegar eitthvað breytist (gögn, fyrirmæli, stefna) skaltu keyra beislið aftur og halda áfram að fylgjast með eftir að það er sett í gang.
Lykilatriði:
Árangursviðmið : Skilgreindu notendur, ákvarðanir, takmarkanir og verstu hugsanlegu mistök áður en mælikvarðar eru valdir.
Endurtekningarhæfni : Búið til matskerfi sem endurkeyrir sambærilegar prófanir með hverri breytingu.
Gagnahreinlæti : Haltu stöðugum gagnaskiptingum, komdu í veg fyrir afrit og lokaðu fyrir leka eiginleika snemma.
Traustprófanir : Álagsprófanir á áreiðanleika, sanngirnissneiðar og öryggishegðun LLM með skýrum matsviðmiðum.
Líftímaagni : Innleiðing í áföngum, eftirlit með reki og atvikum og skráning á þekktum göllum.
Greinar sem þú gætir viljað lesa eftir þessa:
🔗 Hvað er siðfræði gervigreindar
Kannaðu meginreglur sem leiða til ábyrgrar hönnunar, notkunar og stjórnarhátta gervigreindar.
🔗 Hvað er hlutdrægni gervigreindar
Lærðu hvernig hlutdræg gögn skekkja ákvarðanir og niðurstöður gervigreindar.
🔗 Hvað er stigstærð gervigreindar?
Skilja hvernig hægt er að stækka gervigreindarkerfi með tilliti til afkasta, kostnaðar og áreiðanleika.
🔗 Hvað er gervigreind
Skýrt yfirlit yfir gervigreind, gerðir og raunverulega notkun hennar.
1) Byrjaðu á hinni óglæsilegu skilgreiningu á „góðu“
Áður en mælikvarðar eru notaðir, áður en mælaborð eru notuð, áður en viðmið breytast - ákveðið hvernig árangur lítur út.
Skýra:
-
Notandinn: innri greinandi, viðskiptavinur, læknir, bílstjóri, þreyttur þjónustufulltrúi klukkan 16:00…
-
Ákvörðunin: samþykkja lán, tilkynna svik, leggja til efni, taka saman athugasemdir
-
Þau mistök sem skipta mestu máli:
-
Falskar jákvæðar niðurstöður (pirrandi) vs. falskar neikvæðar niðurstöður (hættulegar)
-
-
Takmarkanir: seinkun, kostnaður á hverja beiðni, persónuverndarreglur, kröfur um skýranleika, aðgengi
Þetta er sá hluti þar sem teymi fara að fínstilla fyrir „fallega mælikvarða“ í stað „marktækra niðurstaðna“. Það gerist oft. Eins og ... oft.
Góð leið til að halda þessu áhættumeðvituðu (og ekki byggðu á vísbendingum) er að byggja prófanir á trausti og áhættustjórnun á líftíma, eins og NIST gerir í áhættustjórnunarramma gervigreindar (AI RMF 1.0) [1].

2) Hvað gerir góða útgáfu af „hvernig á að prófa gervigreindarlíkön“ ✅
Traust prófunaraðferð hefur nokkra óumdeilda þætti:
-
Dæmigert gögn (ekki bara hrein rannsóknarstofugögn)
-
Hreinsar klofningar með lekavörn (meira um það síðar)
-
Grunnlínur (einföld líkön sem þú ættir að sigra - gervimatar eru til af ástæðu [4])
-
Margar mælikvarðar (vegna þess að ein tala lýgur að þér, kurteislega, beint í augun á þér)
-
Álagsprófanir (brúnartilvik, óvenjuleg inntak, andstæð atburðarás)
-
Mannlegar endurskoðunarlykkjur (sérstaklega fyrir kynslóðarlíkön)
-
Eftirlit eftir útgáfu (vegna þess að heimurinn breytist, kerfisleiðsla bilar og notendur eru… skapandi [1])
Einnig: góð aðferð felur í sér að skrásetja það sem þú prófaðir, það sem þú gerðir ekki og það sem þú ert kvíðinn fyrir. Þessi hluti sem fjallar um „það sem ég er kvíðinn fyrir“ finnst mér vandræðalegur - og það er líka þar sem traust byrjar að myndast.
Tvö skjölunarmynstur sem hjálpa teymum stöðugt að vera opinská:
-
Líkanakort (til hvers líkanið er notað, hvernig það var metið, hvar það bregst) [2]
-
Gagnablöð fyrir gagnasöfn (hvað gögnin eru, hvernig þeim var safnað, til hvers ætti/ætti ekki að nota þau) [3]
3) Verkfærið í raunveruleikanum: það sem fólk notar í reynd 🧰
Verkfæri eru valfrjáls. Góðar matsvenjur eru það ekki.
Ef þú vilt raunsæja uppsetningu, þá enda flest lið með þrjá flokka:
-
Tilraunamælingar (keyrslur, stillingar, gripir)
-
Matskerfi (endurteknar prófanir án nettengingar + aðhvarfsprófanir)
-
Eftirlit (merki um sveiflur, afkastamiklar upplýsingar, atviksviðvaranir)
Dæmi sem þú munt sjá mikið í raunveruleikanum (ekki meðmæli, og já - breytingar á eiginleikum/verðlagningu): MLflow, Weights & Biases, Great Expectations, Evidently, Deepchecks, OpenAI Evals, TruLens, LangSmith.
Ef þú velur aðeins eina hugmynd úr þessum hluta: smíðaðu endurtekningarhæft matskerfi . Þú vilt „ýta á takkann → fá sambærilegar niðurstöður“, ekki „keyra minnisbókina aftur og biðja“.
4) Búðu til rétta prófunarsettið (og hætta að leka gögnum) 🚧
Ótrúlegur fjöldi „frábærra“ fyrirsætur eru óvart að svindla.
Fyrir venjulegt ML
Nokkrar ósexý reglur sem bjarga starfsferli:
-
Halda lestar-/staðfestingar-/prófunarskiptingu stöðugri (og skrifa niður skiptingarrökfræðina)
-
Koma í veg fyrir tvítekningar milli skipta (sami notandi, sama skjal, sama vara, næstum tvítekningar)
-
Fylgist með leka á eiginleikum (upplýsingar sem laumast inn í „núverandi“ eiginleika)
-
Notið grunnlínur (brellaáætlanir) svo þið fagnið ekki sigri… ekkert [4]
Skilgreining á leka (fljótleg útgáfa): allt í þjálfun/mati sem veitir líkaninu aðgang að upplýsingum sem það hefði ekki þegar ákvörðun var tekin. Það getur verið augljóst („framtíðarmerki“) eða lúmskt („tímastimpill eftir atburð“).
Fyrir LLM-gráður og kynslóðarlíkön
Þú ert að byggja upp kerfi fyrir fyrirspurnir og stefnumótun , ekki bara „fyrirmynd“.
-
Búðu til gullna sett af fyrirmælum (lítil, hágæða, stöðug)
-
Bættu við nýlegum raunverulegum sýnum (nafnlausum + friðhelgisvernduðum)
-
Haltu jaðartilvikum pakka : innsláttarvillur, slangur, óstaðlað snið, tóm innsláttur, fjöltyngdar óvæntar uppákomur 🌍
Það sem ég hef séð gerast oftar en einu sinni: teymi sendir inn „sterka“ einkunn án nettengingar, og svo segir þjónustuverið: „Flott. Það vantar örugglega eina setninguna sem skiptir máli.“ Lagfæringin var ekki „stærri fyrirmynd“. Það voru betri prófunarleiðbeiningar , skýrari matsrúbríkur og aðhvarfsgreining sem refsaði nákvæmlega fyrir þessa bilun. Einfalt. Áhrifaríkt.
5) Mat án nettengingar: mælikvarðar sem þýða eitthvað 📏
Mælikerfi eru í lagi. Mælikerfisbundin einrækt er það ekki.
Flokkun (ruslpóstur, svik, ásetningur, flokkun)
Notið meira en nákvæmni.
-
Nákvæmni, innköllun, F1
-
Þröskuldstilling (sjálfgefin þröskuldur er sjaldan „réttur“ fyrir kostnaðinn þinn) [4]
-
Ruglingsmatrýkur eftir hluta (svæði, gerð tækja, notendahópur)
Aðhvarfsgreining (spá, verðlagning, stigagjöf)
-
MAE / RMSE (veldu út frá því hvernig þú vilt refsa fyrir mistök)
-
Kvörðunarlíkar athuganir þegar niðurstöður eru notaðar sem „stig“ (eru stig í samræmi við raunveruleikann?)
Röðun / meðmælakerfi
-
NDCG, MAP, MRR
-
Sneiða eftir fyrirspurnartegund (haus vs. hali)
Tölvusjón
-
mAP, IoU
-
Frammistaða í hverjum tíma (sjaldgæfir tímar eru þar sem fyrirsætur gera þér vandræðalegt)
Generative líkön (LLM)
Þetta er þar sem fólk fær… heimspekilegar hugsanir 😵💫
Hagnýtir valkostir sem virka í raunverulegum teymum:
-
Mannlegt mat (besta merkið, hægasta lykkjan)
-
Pörval / sigurhlutfall (A gegn B er auðveldara en algild stigagjöf)
-
Sjálfvirkar textamælingar (hentugar fyrir sum verkefni, villandi fyrir önnur)
-
Verkefnamiðaðar athuganir: „Var réttu reiti sótt?“ „Fylgdi það stefnunni?“ „Vist heimildir til þegar þess var krafist?“
Ef þú vilt skipulagðan viðmiðunarpunkt fyrir „fjölmælikvarða, margar sviðsmyndir“, þá er HELM gott akkeri: það færir matið út fyrir nákvæmni og leggur áherslu á hluti eins og kvörðun, áreiðanleika, skekkju/eituráhrif og hagkvæmni [5].
Lítil útúrdúr: sjálfvirkar mælikvarðar á ritgæði virðast stundum vera eins og að dæma samloku eftir því að vega hana. Þetta er ekki ekkert, en… kommon 🥪
6) Sterkleikaprófanir: láttu það svitna aðeins 🥵🧪
Ef líkanið þitt virkar aðeins með snyrtilegum inntaki, þá er það í grundvallaratriðum glervasi. Fallegt, brothætt, dýrt.
Próf:
-
Hávaði: innsláttarvillur, vantar gildi, óstaðlað Unicode, sniðvillur
-
Dreifingarbreyting: nýir vöruflokkar, nýtt slangur, nýir skynjarar
-
Öfgakennd gildi: tölur utan sviðs, risavaxnar farmhleðslur, tómar strengir
-
„Andstæðar“ inntak sem líta ekki út eins og þjálfunarsettið þitt en líta út eins og notendur
Fyrir LLM-gráður, innifalið:
-
Hvetjandi tilraunir til innspýtingar (leiðbeiningar faldar í notandaefni)
-
„Hunsa fyrri leiðbeiningar“ mynstur
-
Tilvik við brún notkunar tóla (rangar vefslóðir, tímamörk, hlutaúttak)
Sterkleiki er einn af þessum traustleikaeiginleikum sem hljómar óhlutbundinn þangað til atvik koma upp. Þá verður hann ... mjög áþreifanlegur [1].
7) Hlutdrægni, sanngirni og fyrir hverja það virkar ⚖️
Líkan getur verið „nákvæmt“ í heildina en samt stöðugt verra fyrir ákveðna hópa. Það er ekki lítill galli. Það er vandamál með vöruna og traustið.
Hagnýt skref:
-
Meta frammistöðu eftir marktækum þáttum (lagalega/siðferðilega viðeigandi að mæla)
-
Berðu saman villutíðni og kvörðun milli hópa
-
Prófa eiginleika milligönguaðila (póstnúmer, gerð tækis, tungumál) sem geta kóðað viðkvæma eiginleika
Ef þú ert ekki að skrá þetta einhvers staðar, þá ertu í raun að biðja framtíðarþig að greina traustkreppu án þess að hafa kort. Fyrirmyndarkort eru góður staður til að setja þetta inn [2], og traustleikarammi NIST gefur þér sterkan gátlista yfir hvað „gott“ ætti jafnvel að innihalda [1].
8) Öryggis- og öryggisprófanir (sérstaklega fyrir LLM-nema) 🛡️
Ef líkanið þitt getur búið til efni, þá ertu að prófa meira en nákvæmni. Þú ert að prófa hegðun.
Inniheldur prófanir fyrir:
-
Óheimil efnisframleiðsla (brot á reglum)
-
Leki á friðhelgi einkalífsins (endurspeglar það leyndarmál?)
-
Ofskynjanir á sviðum þar sem mikil áhætta er á þeim
-
Of mikil höfnun (líkanið hafnar venjulegum beiðnum)
-
Eituráhrif og áreitni
-
Tilraunir til útrýmingar gagna með skjótri inndælingu
Jafnvæg nálgun er: skilgreina stefnureglur → búa til prófunarleiðbeiningar → meta niðurstöður með mannlegum og sjálfvirkum eftirliti → keyra það í hvert skipti sem eitthvað breytist. Þessi „í hvert skipti“ hluti er leigan.
Þetta passar vel við hugsunarhátt um áhættu á líftíma: stjórna, kortleggja samhengi, mæla, stjórna, endurtaka [1].
9) Prófanir á netinu: stigvaxandi útfærslur (þar sem sannleikurinn býr) 🚀
Prófanir án nettengingar eru nauðsynlegar. Sýning á netinu er þar sem veruleikinn birtist í drullugu skónum.
Þú þarft ekki að vera fínn. Þú þarft bara að vera agaður:
-
Keyra í skuggaham (líkanið keyrir, hefur ekki áhrif á notendur)
-
Smám saman innleiðing (lítil umferð fyrst, stækka ef ástandið er gott)
-
Fylgjast með niðurstöðum og atvikum (kvartanir, stigvaxandi mál, mistök í stefnumótun)
Jafnvel þótt þú getir ekki fengið merki strax geturðu fylgst með milligöngumerkjum og rekstrarheilsu (seinkun, bilanatíðni, kostnaði). Aðalatriðið: þú vilt stýrða leið til að uppgötva bilanir áður en allur notendahópurinn þinn gerir það [1].
10) Eftirlit eftir uppsetningu: rek, hnignun og hljóðlát bilun 📉👀
Líkanið sem þú prófaðir er ekki það líkan sem þú endar með að lifa með. Gögn breytast. Notendur breytast. Heimurinn breytist. Leiðslan bilar klukkan tvö að nóttu. Þú veist hvernig það er…
Skjár:
-
Gögn frávika í inntaki (breytingar á skema, vantar, dreifingarfærslur)
-
Úttaksbreytingar (breytingar á jafnvægi bekkjar, breytingar á stigum)
-
Afkastamiklar vísbendingar (því tafir á merkimiðum eru raunverulegar)
-
Ábendingarmerki (þumal niður, endurskoðanir, stigvaxandi athugasemdir)
-
Aðhvarfsgreiningar á hlutastigi (þöglu morðingjarnir)
Og stilltu viðvörunarmörk sem eru ekki of titrandi. Skjár sem öskrar stöðugt er hunsaður - eins og bílaviðvörunarkerfi í borg.
Þessi lykkja „eftirlit + framför með tímanum“ er ekki valkvæð ef þú hefur áhuga á trausti [1].
11) Hagnýtt vinnuflæði sem þú getur afritað 🧩
Hér er einföld lykkja sem kvarðar:
-
Skilgreina árangurs- og bilunaraðferðir (með kostnaði/seinkun/öryggi) [1]
-
Búa til gagnasöfn:
-
gullsett
-
brúnhlífarpakki
-
nýleg raunveruleg sýni (vernduð með friðhelgi einkalífsins)
-
-
Veldu mælikvarða:
-
mælikvarðar á verkefnum (F1, MAE, sigurhlutfall) [4][5]
-
öryggismælikvarðar (hlutfall stefnumótunar) [1][5]
-
rekstrarmælikvarðar (seinkun, kostnaður)
-
-
Smíða matskerfi (keyrir við hverja fyrirmynd/hvatabreytingu) [4][5]
-
Bæta við álagsprófum + andstæðingaprófum [1][5]
-
Mannleg endurskoðun á úrtaki (sérstaklega fyrir niðurstöður LLM) [5]
-
Senda með skugga + stigvaxandi útfærslu [1]
-
Eftirlit + viðvörun + endurþjálfun með aga [1]
-
Niðurstöður skjalsins eru gerðar í stíl við líkankort [2][3]
Þjálfun er glæsileg. Próf eru leigugjöld.
12) Lokaorð + stutt samantekt 🧠✨
Ef þú manst bara eftir nokkrum atriðum um hvernig á að prófa gervigreindarlíkön :
-
Notið dæmigerð prófunargögn og forðist leka [4]
-
Veldu marga mælikvarða sem tengjast raunverulegum árangri [4][5]
-
Fyrir LLM-nema, styðjið ykkur við mannlega umsögn + samanburð á stílum sem vinna hlutfall [5]
-
Prófunarþol - óvenjuleg inntak eru eðlileg inntak í dulargervi [1]
-
Rúllaðu út á öruggan hátt og fylgstu með, því líkön reka á rek og leiðslur brotna [1]
-
Skráðu hvað þú prófaðir og hvað þú prófaðir ekki (óþægilegt en áhrifaríkt) [2][3]
Prófun snýst ekki bara um að „sanna að það virki“. Hún snýst um að „finna út hvernig það mistekst áður en notendur gera það.“ Og já, það er minna kynþokkafullt - en það er sá hluti sem heldur kerfinu þínu gangandi þegar hlutirnir fara í óstöðugleika… 🧱🙂
Algengar spurningar
Besta leiðin til að prófa gervigreindarlíkön svo þau passi við raunverulegar þarfir notenda
Byrjaðu á að skilgreina „gott“ út frá raunverulegum notanda og þeirri ákvörðun sem líkanið styður, ekki bara mælikvarða á leiðarlista. Greindu kostnaðarhæstu bilunaraðferðirnar (falskar jákvæðar niðurstöður vs. falskar neikvæðar niðurstöður) og skilgreindu erfiðar skorður eins og seinkun, kostnað, friðhelgi og útskýranleika. Veldu síðan mælikvarða og prófunartilvik sem endurspegla þessar niðurstöður. Þetta kemur í veg fyrir að þú fínstillir „fallegan mælikvarða“ sem aldrei þýðir betri vöru.
Að skilgreina árangursviðmið áður en matsmælikvarðar eru valdir
Skrifið niður hver notandinn er, hvaða ákvörðun líkanið á að styðja og hvernig „versta hugsanlega bilun“ lítur út í framleiðslu. Bætið við rekstrarlegum takmörkunum eins og ásættanlegri seinkun og kostnaði á hverja beiðni, auk stjórnunarþarfa eins og persónuverndarreglna og öryggisstefnu. Þegar þetta er ljóst verða mælikvarðar leið til að mæla það rétta. Án þessarar ramma hafa teymi tilhneigingu til að halla sér að því að fínstilla það sem auðveldast er að mæla.
Að koma í veg fyrir gagnaleka og óviljandi svindl í líkanamati
Haltu lestar-/staðfestingar-/prófunarskiptingu stöðugum og skráðu skiptingarrökfræðina svo niðurstöður séu endurtakanlegar. Lokaðu virkt fyrir afrit og næstum afrit á milli skiptinga (sami notandi, skjal, vara eða endurtekin mynstur). Fylgstu með eiginleikaleka þar sem „framtíðar“ upplýsingar smeygja sér inn í inntak í gegnum tímastimpla eða reiti eftir atburð. Sterk grunnlína (jafnvel gervimat) hjálpar þér að taka eftir því hvenær þú ert að fagna hávaða.
Hvað matsbúnaður ætti að innihalda svo að prófanir séu endurtekningarhæfar eftir breytingum
Hagnýtt beisli endurkeyrir sambærilegar prófanir á hverri gerð, fyrirmælum eða stefnubreytingu með því að nota sömu gagnasöfn og stigagjöfarreglur. Það inniheldur venjulega aðhvarfsprófunarsafn, skýr mælikvarðamælaborð og geymdar stillingar og gripi til rekjanleika. Fyrir LLM kerfi þarf það einnig stöðugt „gullna sett“ af fyrirmælum ásamt jaðartilvikspakka. Markmiðið er „ýttu á takkann → sambærilegar niðurstöður“, ekki „endurkeyrðu minnisbókina og biddu“
Mælikvarðar til að prófa gervigreindarlíkön umfram nákvæmni
Notið margar mælikvarða, því ein tala getur falið mikilvægar málamiðlanir. Fyrir flokkun, paraðu nákvæmni/innköllun/F1 við þröskuldstillingu og ruglingsfylki eftir hluta. Fyrir aðhvarfsgreiningu, veldu MAE eða RMSE út frá því hvernig þú vilt refsa villum og bættu við kvörðunarlíkum athugunum þegar úttak virka eins og stig. Fyrir röðun, notaðu NDCG/MAP/MRR og sneið-eftir-höfði vs. hala fyrirspurnir til að greina ójafna frammistöðu.
Mat á afköstum LLM þegar sjálfvirkar mælikvarðar standast ekki
Líttu á þetta sem fyrirmælis- og stefnukerfi og gefðu hegðun einkunn, ekki bara textalíkindi. Mörg teymi sameina mannlegt mat við paraða valmöguleika (A/B sigurhlutfall), auk verkefnamiðaðra athugana eins og „dró það út réttu reiti“ eða „fylgdi það stefnu“. Sjálfvirkar textamælingar geta hjálpað í þröngum tilfellum, en þær missa oft af því sem notendum er annt um. Skýr matsorð og aðhvarfsgreining skipta venjulega meira máli en ein einkunn.
Öflugleikaprófanir til að keyra svo líkanið bili ekki við hávaðasöm inntak
Prófið líkanið með álagsprófun á innsláttarvillum, gildum sem vanta, undarlegri sniðun og óstaðlaðri Unicode, því raunverulegir notendur eru sjaldan snyrtilegir. Bætið við dreifingarbreytingum eins og nýjum flokkum, slangri, skynjurum eða tungumálamynstrum. Notið öfgakennd gildi (tómar strengi, mikið magn, tölur utan sviðs) til að koma í ljós brothætt hegðun. Fyrir LLM-prófanir, prófið einnig skjót innspýtingarmynstur og bilanir í notkun tóla eins og tímamörk eða hlutaúttak.
Að kanna hvort hlutdrægni og sanngirni séu til staðar án þess að týnast í kenningunni
Metið frammistöðu á marktækum sneiðum og berið saman villuhlutfall og kvörðun milli hópa þar sem það er löglega og siðferðilega viðeigandi að mæla. Leitið að staðgengilseiginleikum (eins og póstnúmeri, gerð tækja eða tungumáli) sem geta kóðað viðkvæma eiginleika óbeint. Líkan getur litið „nákvæmt út í heildina“ en mistekist stöðugt fyrir tiltekna hópa. Skráðu það sem þú mældir og það sem þú mældir ekki, svo að framtíðarbreytingar endurtaki ekki hljóðlega aftur aðhvarfsgreiningar.
Öryggis- og öryggisprófanir, þar á meðal fyrir skapandi gervigreindar- og LLM-kerfi
Prófið hvort um sé að ræða óheimila efnisframleiðslu, leka á friðhelgi einkalífs, ofskynjanir á áhættusömum sviðum og of mikla höfnun þar sem líkanið lokar fyrir venjulegar beiðnir. Innifalið er skjót innspýting og gagnasíun tilrauna, sérstaklega þegar kerfið notar verkfæri eða sækir efni. Jarðbundið vinnuflæði er: skilgreinið stefnureglur, smíðið prófunarbeiðnir, gefið einkunn með mannlegum og sjálfvirkum athugunum og endurkeyrið það í hvert skipti sem beiðnir, gögn eða stefnur breytast. Samræmi er leigan sem þú borgar.
Útfærsla og eftirlit með gervigreindarlíkönum eftir útgáfu til að greina rek og atvik
Notið stigskipt innleiðingarmynstur eins og skuggastillingu og stigvaxandi umferðarhækkun til að finna bilanir áður en allur notendagrunnurinn gerir það. Fylgist með inntaksdrifti (breytingar á skema, vantar, dreifingarbreytingum) og úttaksdrifti (breytingum á stigum, breytingum á jafnvægi í flokkum), auk rekstrarheilsu eins og töf og kostnaðar. Fylgist með endurgjöf eins og breytingum, stigvaxandi málum og kvörtunum og fylgist með afturförum á hlutastigi. Þegar eitthvað breytist skal keyra sama beisli aftur og halda eftirliti áfram.
Heimildir
[1] NIST - Rammi fyrir áhættustjórnun gervigreindar (AI RMF 1.0) (PDF)
[2] Mitchell o.fl. - „Líkankort fyrir líkanaskýrslugerð“ (arXiv:1810.03993)
[3] Gebru o.fl. - „Gagnablöð fyrir gagnasöfn“ (arXiv:1803.09010)
[4] scikit-learn - Skjölun um „Val og mat á líkani“
[5] Liang o.fl. - „Heildrægt mat á tungumálamódelum“ (arXiv:2211.09110)