Kluczowe ustalenia
-
Luka między otwartymi modelami a zamkniętą, płatną czołówką jest realna, ale wąska — i się nie powiększa. Tak stan na czerwiec 2026 podsumowuje blog OpenRouter, platformy pośredniczącej w dostępie do dziesiątek modeli.
-
W kodowaniu otwarte modele domykają dystans najmocniej. Model Qwen3.6-27B na licencji Apache-2.0 osiąga 77,2% na benchmarku SWE-Bench Verified — wynika to z zestawienia Codersera z maja 2026.
-
W multimodalności (obraz + tekst) otwarty Qwen3-VL-235B rywalizuje z komercyjnymi Gemini-2.5-Pro i GPT-5 — tak ocenia go przewodnik BentoML.
-
W długim kontekście liderem otwartych modeli jest Llama 4 Scout z oknem 10 milionów tokenów, wg porównania ComputingForGeeks.
-
Większość modeli nazywanych „open source” to w rzeczywistości modele open-weight (otwarte wagi do pobrania). Open Source Initiative utrzymuje, że licencja Meta Llama nie jest open-source.
-
Polskie modele Bielik i PLLuM wypadły słabiej od czołowych globalnych LLM-ów w testach z marca 2026 — według zestawienia opisanego przez Bankier Bielik plasował się zwykle wyżej niż PLLuM.
Kontekst i tło
Pytanie o „najlepszy model open source” ma haczyk już na poziomie definicji. Większość modeli, które potocznie nazywa się „open source”, to modele open-weight: ich wagi (czyli wytrenowane parametry sieci) można pobrać i uruchomić u siebie, ale licencja nie spełnia kryteriów otwartego oprogramowania.
Najgłośniejszy przykład to rodzina Llama od Meta. Open Source Initiative — organizacja, która od ćwierć wieku definiuje, co znaczy „open source” — w lutym 2025 roku opublikowała stanowisko, że licencja Llama nadal nie jest open-source, i prowadzi kampanię przeciw tak zwanemu „open washingowi”, czyli podszywaniu się pod otwartość. Powód jest konkretny: licencja Meta zawiera próg miesięcznej liczby aktywnych użytkowników, po którego przekroczeniu produkt musi wystąpić o osobną zgodę od Meta. Dlatego — jak ujmuje to przewodnik Morph — Llama 4 jest „open-weight, a nie open source”.

Źródło: opensource.org
To rozróżnienie ma praktyczne znaczenie. Modele z licencją Apache 2.0 lub MIT (część linii Qwen, Mistral, DeepSeek) są bliższe klasycznej definicji wolnego oprogramowania niż Llama z jej licencją społecznościową. Dla firmy budującej produkt różnica między „mogę pobrać wagi” a „mogę użyć komercyjnie bez limitów” bywa kluczowa.
W tle całego porównania stoi też ograniczenie samych rankingów. Konkretne liczby z agregatorów benchmarkowych — kto ma ile punktów i o ile wyprzedza konkurencję — bywają rozbieżne między serwisami. W naszej weryfikacji kilka takich twardych porównań liczbowych (np. dokładny dystans punktowy między najlepszym otwartym a najlepszym zamkniętym modelem na jednym agregatorze) nie znalazło spójnego potwierdzenia w niezależnych źródłach. Dlatego poniżej trzymamy się tez, które dało się potwierdzić, i unikamy pojedynczych „magicznych liczb”.
Szczegółowa analiza
Kodowanie: tu otwarte modele są najbliżej płatnej czołówki. Najczęściej przywoływanym dowodem jest wynik na SWE-Bench Verified — benchmarku, który mierzy zdolność modelu do realnego naprawiania błędów w kodzie z prawdziwych repozytoriów. Model Qwen3.6-27B od Alibaby, na otwartej licencji Apache-2.0, osiąga na nim 77,2% według zestawienia Codersera z maja 2026. To wynik, który jeszcze rok wcześniej był domeną wyłącznie zamkniętych modeli frontiera. Sama karta modelu na Hugging Face potwierdza otwartą licencję i parametry. Warto jednak zaznaczyć: nie udało nam się potwierdzić w spójny sposób, o ile dokładnie wyprzedza go najlepszy model płatny na tym samym benchmarku — różne agregatory podają różne liczby, więc traktujemy konkretną „różnicę punktową” jako niepewną.
Rozumowanie: jakość kosztem czasu. Osobną kategorią są modele „rozumujące” (reasoning), trenowane tak, by przed udzieleniem odpowiedzi generowały rozbudowany łańcuch myślowy (chain-of-thought). Otwarte DeepSeek-R1 i QwQ-32B są trenowane specyficznie na takim wydłużonym rozumowaniu — generują szczegółowe ślady myślenia i z tego powodu są jawnie wolniejsze od zwykłych modeli, na co zwraca uwagę zestawienie Ertas AI. To ważny kompromis dla pytania o „najlepszy model”: w zadaniach matematycznych i logicznych otwarte modele rozumujące potrafią dorównać płatnym, ale płaci się za to latencją i zużyciem tokenów.
Ciekawostka inżynierska stojąca za tymi modelami pokazuje, jak działa otwarty ekosystem. Budując mniejsze warianty rozumujące, DeepSeek nie trenował od zera — wziął sześć istniejących modeli open-source opartych na Llama 3.1/3.3 oraz Qwen 2.5 i nauczył je rozumowania w stylu R1. Opisuje to przewodnik BentoML, a potwierdzają karty modeli na Hugging Face. To dokładnie ta wartość otwartości, której nie dają modele zamknięte: jedna firma może zbudować swój produkt na wagach drugiej.
Multimodalność: prawie remis. W zadaniach łączących obraz i tekst — ogólne pytania wizualne, lokalizowanie obiektów w przestrzeni 2D/3D, rozumienie wideo, OCR i analiza dokumentów — flagowy otwarty model wizyjno-językowy Qwen3-VL-235B-A22B-Instruct rywalizuje z komercyjnymi Gemini-2.5-Pro i GPT-5. Tak ocenia go przewodnik BentoML po modelach wizyjnych, a model jest dostępny publicznie m.in. przez OpenRouter. To jeden z obszarów, w których dystans do płatnej czołówki jest najmniejszy.
Długi kontekst: tu otwarte modele wręcz prowadzą. Jeśli liczy się to, ile tekstu model „pamięta” naraz, otwarty Llama 4 Scout od Meta oferuje okno kontekstowe 10 milionów tokenów i jest pod tym względem liderem wśród modeli open-weight — wynika to z porównania ComputingForGeeks. To rozmiar pozwalający wczytać naraz całe książki czy duże bazy kodu — i obszar, w którym otwartość nie ustępuje płatnej konkurencji.
Polski wątek: dystans wciąż duży. Krajowe modele open-source — Bielik (rozwijany przez SpeakLeash) i PLLuM — w testach z marca 2026 wypadły słabiej od czołowych globalnych LLM-ów. Pisały o tym Bankier i biznes.interia.pl; w bezpośrednim zestawieniu Bielik plasował się zwykle wyżej niż PLLuM. To realne osadzenie pytania w polskim kontekście: otwarty rodzimy model istnieje i się rozwija, ale do globalnej czołówki — otwartej czy zamkniętej — jeszcze mu daleko.
Co z tego wynika dla wyboru? „Najlepszy model open source” nie istnieje jako jedna odpowiedź — zależy od zadania. Do kodowania wskazywane są modele linii Qwen i DeepSeek, do długiego kontekstu Llama 4 Scout, do multimodalności Qwen3-VL, a do rozumowania DeepSeek-R1. Wspólny mianownik: w 2026 roku otwarte modele są realną alternatywą dla płatnych w coraz większej liczbie zastosowań, choć w samej szczytowej czołówce ogólnej zamknięte modele wciąż prowadzą.
Podsumowanie
W połowie 2026 roku otwarte modele językowe nie są już „tańszą namiastką” płatnych. W kodowaniu, analizie obrazu i długim kontekście dorównują albo zbliżają się do komercyjnej czołówki, a dystans — jak podsumowuje OpenRouter — jest wąski i się nie powiększa. Trzeba jednak pamiętać o dwóch rzeczach. Po pierwsze, większość tych modeli to „otwarte wagi”, a nie pełnoprawny open source w rozumieniu Open Source Initiative — licencja Llama wciąż budzi spór. Po drugie, konkretne liczby z rankingów bywają rozbieżne między serwisami, więc warto patrzeć na trend i mocne strony danego modelu, a nie na pojedynczy wynik z jednej tabeli. Najlepszy otwarty model to ten dopasowany do zadania — innego do pisania kodu, innego do analizy długich dokumentów.