Hvaðan fær gervigreind upplýsingar sínar?

Hefurðu einhvern tíma setið þarna og klórað þér í höfðinu og hugsað ... hvaðan kemur þetta eiginlega ? Ég meina, gervigreind er ekki að gramsa í gegnum rykuga bókasafnsstöflur eða horfa á stuttmyndir á YouTube í laumi. Samt finnur hún einhvern veginn svör við öllu - allt frá lasagna-brellum til svarthols-eðlisfræði - eins og hún hafi einhvern botnlausan skjalaskáp inni í sér. Raunveruleikinn er undarlegri og kannski forvitnilegri en þú heldur. Við skulum skoða þetta aðeins betur (og já, kannski afhjúpa nokkrar goðsagnir á leiðinni).

Er þetta galdra? 🌐

Þetta er ekki galdra, þó að stundum finnist það þannig. Það sem gerist undir húddinu er í grundvallaratriðum mynsturspá . Stór tungumálalíkön (e. Large language models, LLMs) geyma ekki staðreyndir á sama hátt og heilinn geymir smákökuuppskrift ömmu þinnar; í staðinn eru þau þjálfuð til að giska á næsta orð (tákn) út frá því sem kom á undan [2]. Í reynd þýðir það að þau festast í tengsl: hvaða orð passa saman, hvernig setningar mótast venjulega, hvernig heilar hugmyndir eru byggðar upp eins og vinnupallar. Þess vegna hljómar rétt, jafnvel þótt - í fullri hreinskilni - þetta sé tölfræðileg eftirherma, ekki skilningur [4].

Hvað gerir þá í raun upplýsingar sem eru framleiddar með gervigreind gagnlegar ? Nokkur atriði:

Fjölbreytni gagna - að sækja úr ótal uppsprettum, ekki einum þröngum straumi.
Uppfærslur - án endurnýjunarferla verður það fljótt úrelt.
Síun - helst að fanga rusl áður en það síast inn (þó, verum raunsæ, það net er með göt).
Krossathugun - að styðjast við heimildir (t.d. NASA, Alþjóðaheilbrigðismálastofnunina, helstu háskóla), sem er nauðsynlegt í flestum stjórnunarleiðbeiningum um gervigreind [3].

Samt sem áður, stundum skáldar það upp - af öryggi. Þessar svokölluðu ofskynjanir ? Í grundvallaratriðum fágað bull sem er borið fram með beinum svip [2][3].

Greinar sem þú gætir viljað lesa eftir þessa:

🔗 Getur gervigreind spáð fyrir um lottótölur
Að kanna goðsagnir og staðreyndir um lottóspár með gervigreind.

🔗 Hvað þýðir það að taka heildræna nálgun á gervigreind?
Að skilja gervigreind með jafnvægi í siðferði og áhrifum.

🔗 Hvað segir Biblían um gervigreind
Að skoða biblíuleg sjónarmið á tækni og sköpun mannsins.

Fljótleg samanburður: Hvaðan gervigreind dregur 📊

Ekki eru allar heimildir jafnar, en hver gegnir sínu hlutverki. Hér er yfirlitsmynd.

Upprunategund	Hver notar það (gervigreind)	Kostnaður/virði	Af hverju það virkar (eða virkar ekki...)
Bækur og greinar	Stórar tungumálalíkön	Ómetanlegt (eða svoleiðis)	Þétt, skipulögð þekking - eldist bara fljótt.
Vefsíður og blogg	Næstum allar gervigreindir	Ókeypis (með hávaða)	Villt fjölbreytni; blanda af snilld og algjöru rusli.
Fræðigreinar	Rannsóknarþung gervigreind	Stundum með greiðslumúr	Strangleiki + trúverðugleiki, en orðað í þungu fagmáli.
Notendagögn	Sérsniðnar gervigreindir	Mjög viðkvæmur ⚠️	Snjöll snið, en mikið af höfuðverkjum varðandi friðhelgi einkalífsins.
Rauntímavefur	Leitartengdar gervigreindir	Ókeypis (ef það er á netinu)	Heldur upplýsingum ferskum; gallinn er hætta á að orðrómur magnist.

Þjálfunargagnaheimurinn 🌌

Þetta er „námsferlið“ í bernsku. Ímyndaðu þér að afhenda barni milljónir sögubóka, fréttaúrklippa og kanínuhola á Wikipediu allt í einu. Þannig lítur forþjálfun út. Í hinum raunverulega heimi blanda þjónustuaðilar saman opinberlega aðgengilegum gögnum, leyfisbundnum heimildum og texta sem þjálfarar búa til [2].

Ofan á: valin dæmi úr mönnum - góð svör, slæm svör, hvatningar í rétta átt - áður en styrking hefst jafnvel [1].

Fyrirvari um gagnsæi: fyrirtæki birta ekki allar upplýsingar. Sumar hindranir eru leyndarmál (hugverkaréttindi, öryggismál), þannig að þú færð aðeins takmarkaða innsýn í raunverulega blönduna [2].

Leit í rauntíma: Aukaáleggið 🍒

Sum líkön geta nú kíkt út fyrir þjálfunarbóluna sína. Það er endurheimt-aukið kynslóð (RAG) - í grundvallaratriðum að draga búta úr lifandi vísitölu eða skjalageymslu og flétta þá síðan inn í svarið [5]. Tilvalið fyrir ört breytandi efni eins og fréttafyrirsagnir eða hlutabréfaverð.

Vandamálið? Internetið er jafnt snilld og rusl. Ef síur eða upprunastaðfestingar eru veikar er hætta á að ruslgögn laumist inn - nákvæmlega það sem áhætturammar vara við [3].

Algeng lausn: fyrirtæki tengja líkön við sína eigin innri gagnagrunna, þannig að svörin vitna í gildandi mannauðsstefnu eða uppfærð vöruskjöl í stað þess að gera lítið úr þeim. Hugsið: færri „ú-ú“ augnablik, traustari svör.

Fínstilling: Fægingarskref gervigreindar 🧪

Óþjálfuð líkön eru klaufaleg. Þess vegna eru þau fínstillt :

Að kenna þeim að vera hjálpsöm, skaðlaus og heiðarleg (með því að styrkja námsferlið með endurgjöf frá mönnum, RLHF) [1].
Að slípa niður óöruggar eða eitraðar brúnir (jöfnun) [1].
Að aðlaga tóninn - hvort sem hann er vinalegur, formlegur eða kaldhæðinn.

Það er ekki eins mikið að pússa demant og að þvinga tölfræðilega snjóflóð til að hegða sér meira eins og samræðufélagi.

Högg og mistök 🚧

Við skulum ekki þykjast að þetta sé gallalaust:

Ofskynjanir - skörp svör sem eru hreint út sagt röng [2][3].
Skekkjuþáttur - endurspeglar mynstur sem eru innbyggð í gögnin; getur jafnvel magnað þau upp ef ekkert er að gert [3][4].
Engin reynsla af fyrstu hendi - það getur talað um súpuuppskriftir en hefur aldrei smakkað eina [4].
Ofuröryggi - textinn flæðir eins og hann viti, jafnvel þegar hann gerir það ekki. Áhætturammar leggja áherslu á vafasamar forsendur [3].

Af hverju það er eins og að vita 🧠

Það hefur engar skoðanir, ekkert minni í mannlegum skilningi og alls ekki sjálf. En vegna þess að það þræðir setningar saman á sléttan hátt, les heilinn það eins og hann skilji . Það sem er að gerast er bara gríðarleg næstu spá : að reikna út trilljónir líkinda á brotum af sekúndum [2].

„Greindar“-áhrifin eru áhrif á ný hegðunarmynstur - vísindamenn kalla það, svolítið kaldhæðnislega, „stöku páfagauka“ -áhrif [4].

Barnvæn samlíking 🎨

Ímyndaðu þér páfagauk sem hefur lesið allar bækur í bókasafninu. Hann skilur sögurnar en getur blandað saman orðunum í eitthvað sem finnst skynsamlegt. Stundum er það alveg rétt; stundum er það bull - en með nægum snilld er ekki alltaf hægt að greina á milli.

Að lokum: Hvaðan koma upplýsingar gervigreindar 📌

Einfaldlega sagt:

Mikilvæg þjálfunargögn (opinber + leyfisbundin + búin til af þjálfurum) [2].
Fínstilling með mannlegri endurgjöf til að móta tón/hegðun [1].
Söfnunarkerfi þegar þau eru tengd við rauntíma gagnastrauma [5].

Gervigreind „veit“ ekki hluti - hún spáir fyrir um texta . Það er bæði ofurkraftur hennar og akkillesarhæll. Niðurstaðan? Berið alltaf saman mikilvæg atriði við traustan heimildarmann [3].

Heimildir

Ouyang, L. o.fl. (2022). Þjálfun tungumálalíkana til að fylgja leiðbeiningum með mannlegri endurgjöf (InstructGPT) . arXiv .
OpenAI (2023). Tæknileg skýrsla GPT-4 - blanda af leyfisbundnum, opinberum og manngerðum gögnum; markmið og takmarkanir um spár um næstu tákn. arXiv .
NIST (2023). Rammi fyrir áhættustjórnun gervigreindar (AI RMF 1.0) - uppruni, traustleiki og áhættustýring. PDF .
Bender, EM, Gebru, T., McMillan-Major, A., Mitchell, S. (2021). Um hættur stokastískra páfagaukanna: Geta tungumálalíkön verið of stór? PDF .
Lewis, P. o.fl. (2020). Söfnun með aukinni endurheimt fyrir þekkingarfreka NLP . arXiv .

Finndu nýjustu gervigreindina í opinberu versluninni fyrir gervigreindaraðstoðarmenn

Um okkur

Til baka á bloggið

Land/svæði