2025-01-31

Mistral Small 3 24B i Tulu 3 405B

Otwarte modele to wszystko, czego potrzebujemy.

W dziwnym zwrocie losu, wspierana kapitałem VC firma Mistral ($1,4 mld pozyskane do tej pory) oraz nonprofit AI2 wypuściły dziś mały model Apache 2 oraz duży model, ale nie w kolejności, której można by oczekiwać, patrząc na finansowanie.

Najpierw, Mistral Small 3, wydany za pośrednictwem ich znaku towarowego magnet link, ale na szczęście również blogpost:

Bardzo miła aktualizacja oferty Mistral na rok 2025 zoptymalizowana pod kątem lokalnego wnioskowania - choć można zauważyć, że oś x na ich wykresie efektywności zmienia się szybciej niż oś y. Internetowi detektywi już zanalizowali różnice architektoniczne w porównaniu z Mistral Small 2 (zasadniczo zwiększając wymiarowość, ale zmniejszając liczbę warstw i głów ze względu na opóźnienia):

Ich fragment o zastosowaniach jest ciekawą informacją dlaczego uznali, że warto to wypuścić:

Następnie AI2 wydało Tülu 3 405B, ich duże doszlifowanie Llama 3, które wykorzystuje ich przepis Reinforcement Learning from Verifiable Rewards (RVLR) (z artykułu o Tulu 3) by uczynić go konkurencyjnym z DeepSeek v3 w niektórych wymiarach:

Niestety, wydaje się, że na razie nie ma dostępnych żadnych interfejsów API, więc trudno jest wypróbować ten wielki model.

« 1 ... 26 27 28 29 30 »