S1: Proste skalowanie w czasie testu (i Kyutai Hibiki)
"Wait" to wszystko, czego potrzebujesz.
Z przykrością spóźniliśmy się z omówieniem tego artykułu, ale lepiej późno niż wcale. s1: Proste skalowanie w czasie testu dokumentuje nowy model rozumowania z 2 nowatorskimi wkładami:
- dostosowany od Qwen 2.5 32B na zaledwie 1000 pytaniach powiązanych ze śladami rozumowania zdestylowanych z Gemini 2.0 Flash Thinking, filtrowanych pod kątem trudności, różnorodności i jakości (26 minut treningu na 16 kartach H100)
- kontrolowalna moc obliczeniowa w czasie testu poprzez przymusowe zakończenie procesu myślowego modelu lub jego wydłużenie poprzez wielokrotne dołączanie "Wait" do generacji modelu, gdy próbuje zakończyć.

Główny autor Niklas Muennighoff, który znacząco pracował nad Bloom, StarCoder, MTEB i przyczynił się do BIG-bench, zaznacza, że ta druga sztuczka odtwarza słynny wykres skalowania o1:

W porównaniu do Bespoke-Stratos (nasze omówienie tutaj), filtrowanie jest również niezwykle efektywne próbkowo.

Również polecamy wyjaśnienia Simonw i Tim Kellogg.
Dzisiaj wzmianka honorowa:
Kyutai Moshi zrobił furorę w zeszłym roku (nasze omówienie tutaj) dzięki swojemu głosowi w czasie rzeczywistym z wewnętrznym monologiem, a teraz Hibiki pokazuje bardzo imponującą francusko-angielską tłumaczenie na żywo offline na iPhone. Niezłe jak na projekt stażowy.
