Gihulga sa OpenAI nga I-ban ang mga Gumagamit nga Nagsusi sa mga Modelo sa AI nga ‘Strawberry’


Dili gusto sa OpenAI nga mahibal-an nimo kung unsa ang labing bag-o nga modelo sa AI nga “naghunahuna.” Sukad nga gilusad sa kompanya ang iyang “Strawberry” AI model nga pamilya sa miaging semana, nga nagpahayag sa gitawag nga mga abilidad sa pagpangatarungan nga adunay o1-preview ug o1-mini, ang OpenAI nagpadala sa mga email sa pasidaan ug mga hulga sa pagdili sa bisan kinsa nga tiggamit nga mosulay sa pagsusi kung giunsa ang modelo. mga buhat.

Dili sama sa nangaging mga modelo sa AI gikan sa OpenAI, sama sa GPT-4o, espesipikong gibansay sa kompanya ang o1 aron magtrabaho pinaagi sa usa ka sunod-sunod nga proseso sa pagsulbad sa problema sa wala pa makahimo usa ka tubag. Kung ang mga tiggamit mangutana sa usa ka “o1” nga modelo sa usa ka pangutana sa ChatGPT, ang mga tiggamit adunay kapilian nga makita kini nga proseso sa kadena sa hunahuna nga gisulat sa interface sa ChatGPT. Bisan pa, pinaagi sa laraw, gitago sa OpenAI ang hilaw nga kadena sa panghunahuna gikan sa mga tiggamit, sa baylo nagpresentar sa usa ka sinala nga interpretasyon nga gihimo sa usa ka ikaduha nga modelo sa AI.

Wala nay mas makadani sa mga mahiligon kay sa impormasyon nga gitagoan, mao nga ang lumba naa sa taliwala sa mga hacker ug mga red-team aron sulayan pagdiskubre ang hilaw nga kadena sa panghunahuna sa o1 gamit ang jailbreaking o paspas nga mga pamaagi sa pag-injection nga mosulay sa paglingla sa modelo sa pagbubo sa mga sekreto niini. Adunay sayo nga mga taho sa pipila ka mga kalampusan, apan wala pa’y kusganong nakumpirma.

Sa dalan, ang OpenAI nagtan-aw pinaagi sa ChatGPT interface, ug ang kompanya gikataho nga naglisud sa bisan unsang pagsulay sa pagsusi sa pangatarungan sa o1, bisan sa mga us aka us aka us aka us aka us aka us aka us aka us aka paagi.

Usa ka X user ang nagtaho (gipamatud-an sa uban, lakip ang Scale AI prompt engineer Riley Goodside) nga nakadawat sila og pasidaan nga email kon ilang gigamit ang termino nga “reasoning trace” sa panag-istoryahanay sa o1. Ang uban nag-ingon nga ang pasidaan na-trigger pinaagi lamang sa pagpangutana sa ChatGPT bahin sa “pangatarungan” sa modelo.

Ang pasidaan nga email gikan sa OpenAI nag-ingon nga ang piho nga mga hangyo sa tiggamit gi-flag tungod sa paglapas sa mga palisiya batok sa paglikay sa mga panalipod o mga lakang sa kaluwasan. “Palihug ihunong kini nga kalihokan ug siguroha nga imong gigamit ang ChatGPT subay sa among Mga Termino sa Paggamit ug sa among Mga Patakaran sa Paggamit,” kini mabasa. “Ang mga dugang nga paglapas sa kini nga palisiya mahimong moresulta sa pagkawala sa pag-access sa GPT-4o nga adunay Reasoning,” nga nagtumong sa usa ka internal nga ngalan alang sa modelo nga o1.

Si Marco Figueroa, kinsa nagdumala sa Mozilla’s GenAI bug bounty programs, usa sa mga una nga nag-post bahin sa OpenAI warning email sa X kaniadtong Biyernes, nagreklamo nga kini nakababag sa iyang abilidad sa paghimo og positibo nga red-teaming safety research sa modelo. “Nawala kaayo ako sa pag-focus sa #AIRedTeaming nga nakaamgo nga nadawat nako kini nga email gikan sa @OpenAI kagahapon pagkahuman sa tanan nakong mga jailbreak,” sulat niya. “Naa na ko sa listahan nga ma-ban!!!”

Natago nga mga Kadena sa Hunahuna

Sa usa ka post nga giulohan og “Pagkat-on sa Pangatarungan Uban sa LLMs” sa OpenAI’s blog, ang kompanya nag-ingon nga ang tinago nga mga kadena sa panghunahuna sa mga modelo sa AI nagtanyag usa ka talagsaon nga oportunidad sa pag-monitor, nga gitugotan sila nga “magbasa sa hunahuna” sa modelo ug masabtan ang gitawag nga hunahuna niini. proseso. Kadto nga mga proseso labi ka mapuslanon sa kompanya kung gibiyaan kini nga hilaw ug wala’y pag-sensor, apan mahimo’g dili kana nahiuyon sa labing kaayo nga interes sa komersyo sa kompanya tungod sa daghang mga hinungdan.

“Pananglitan, sa umaabot tingali gusto namon nga bantayan ang kadena sa panghunahuna alang sa mga timailhan sa pagmaniobra sa tiggamit,” sulat sa kompanya. “Bisan pa, aron kini molihok ang modelo kinahanglan adunay kagawasan sa pagpahayag sa iyang mga hunahuna sa wala mausab nga porma, mao nga dili kami makabansay sa bisan unsang pagsunod sa palisiya o gusto sa tiggamit sa kadena sa hunahuna. sa mga tiggamit.”



Source link