o3 and tools are all you need.
Wprowadzając Operatora (nasza relacja tutaj), sama zasugerowała, że wkrótce pojawią się kolejne agenty OpenAI, ale niewielu z nas spodziewało się, że następny pojawi się za 9 dni, wysłany z Japonii, w niedzielę w USA:
Post na blogu oferuje więcej wglądu w zamierzone przypadki użycia, ale cennym jest wynik Deep Research na nowym benchmarku HLE autorstwa Dana Hendrycksa, który więcej niż podwoił wynik o3-mini-high wydany w piątek (nasza relacja tutaj).

Oni również opublikowali wynik SOTA na GAIA - który został skrytykowany przez współautorów za publikowanie tylko wyników publicznego zestawu testowego - co jest oczywiście problematyczne dla agenta, który może surfować w sieci, chociaż nie ma żadnego powodu, by kwestionować integralność tego, zwłaszcza kiedy zostało to potwierdzone w przypisach oraz gdy próbki śladów testowych GAIA zostały opublikowane.
OAIDR posiada swoją wersję wykresu "skalowania czasu wnioskowania", który jest bardzo imponujący - nie w skali samego wykresu, ale w wyraźnej rzetelności wykazanej w procesie badawczym, który umożliwił stworzenie takiego wykresu (zakładając, że to jest badanie, a nie marketing, ale tutaj linie niestety się zacierają, by sprzedać subskrypcję za 200 dolarów miesięcznie).


Pracownicy OpenAI potwierdzili, że to pierwszy raz, kiedy pełne o3 zostało wydane na wolności (a gdb twierdzi, że to "wyjątkowo prosty agent"), a post na blogu zauważa, że wersja "o3-deep-research-mini" jest w drodze, która zwiększy limity pobierania z 100 zapytań miesięcznie dostępnych dzisiaj.
Odbiór był głównie pozytywny, czasami aż do hiperwentylacji. Niektórzy ludzie kpią z przesady, ale ogólnie zgadzamy się z pozytywnymi opiniami Ethana Mollicka i Dana Shippera, chociaż doświadczamy również wielu porażek.
Reklama bez wstydu: Będziemy mieli wielu budowniczych Deep Research i innych agentów, w tym oryginalny zespół Gemini Deep Research, na AI Engineer NYC w dniach 20-22 lutego. Ostatnie wezwanie dla aplikantów!