2025-02-04

OpenAI mierzy się z głębokimi badaniami Gemini.

O3 i narzędzia to wszystko, czego potrzebujesz.

Podczas wprowadzenia Operatora (nasze omówienie tutaj), Sama zasugerowała, że wkrótce pojawi się więcej agentów OpenAI, ale niewielu z nas spodziewało się kolejnego za 9 dni, wydanego z Japonii w amerykańską niedzielę:

Post na blogu oferuje więcej informacji na temat zamierzonych zastosowań, ale szczególnie godne uwagi są wyniki Deep Research na nowym HLE Dan Hendrycksa, które więcej niż podwoiły wynik o3-mini-high wydanego właśnie w piątek (nasze omówienie tutaj).

Wydali również wynik SOTA na GAIA - który został skrytykowany przez współautorów za ujawnienie jedynie wyników testów publicznych - oczywiście problematyczne dla agenta, który może przeszukiwać sieć, choć nie ma żadnego powodu, aby kwestionować rzetelność wyników, szczególnie gdy zostało to potwierdzone w przypisach, a próbki tras testowych GAIA zostały opublikowane.

OAIDR zawiera swoją własną wersję wykresu "skalowania czasu wnioskowania", który jest bardzo imponujący - nie w samym skalowaniu wykresu, ale w jasnej rygorystyczności wykazanej w procesie badawczym, który umożliwił stworzenie takiego wykresu (zakładając oczywiście, że jest to badanie, a nie marketing, ale tutaj linie niestety się zacierają, aby sprzedać subskrypcję za 200 USD miesięcznie).

Pracownicy OpenAI potwierdzili, że to pierwszy raz, gdy pełne o3 zostało wydane na wolności (a gdb mówi, że to "bardzo prosty agent"), a post na blogu zwraca uwagę, że w drodze jest wersja "o3-deep-research-mini", która podniesie limity zapytań z dostępnych dziś 100 zapytań miesięcznie.

Odbiór był przeważnie pozytywny, czasami do punktu hiperwentylacji. Niektórzy ludzie wyśmiewają przesadę, ale ogólnie zgadzamy się z pozytywnymi opiniami Ethan Mollick i Dan Shipper, chociaż doświadczamy również wielu niepowodzeń.

Bez wstydu: Będziemy mieć kilku budowniczych Deep Research i innych agentów, w tym oryginalny zespół Gemini Deep Research, na AI Engineer NYC w dniach 20-22 lutego. Ostatnie wezwanie dla aplikantów!

« 1 ... 23 24 25 26 27 ... 30 »