LLM quiz
SLM in locale su Jetson · quanto distano dai modelli frontier

Un piccolo modello su un Jetson.
Quanto arriva vicino ai grandi?

Stesso quiz di 30 domande-trappola dato a due mondi: i modelli piccoli (SLM) che girano in locale su un Jetson Orin, e i modelli di frontier via API. Quanto si avvicinano i piccoli ai grandi, in precisione e in velocità?

Le 30 domande provengono da llm-quiz.com/quiz e sono state tradotte in italiano.

Qualità vs velocità

Giusto e veloce.

Ogni punto è una configurazione. In alto = più accurato; a sinistra = più veloce. I modelli via API (a sinistra) sono molto più rapidi dei locali (a destra), a parità o meglio di accuratezza.

Il «thinking» sui locali

Più ragionano, più ci prendono?

Per i due modelli locali sul Jetson, come cambia l'accuratezza al crescere del budget di «ragionamento» (token di thinking concessi al modello). 0 = nessun ragionamento. La banda è l'intervallo tra le ripetizioni.

Il guadagno sale e poi satura: oltre un certo budget ragionare di più non aiuta. È la stessa dinamica che si vede sui modelli frontier.

Com'è fatto

Stesso quiz, regole identiche.

Niente codice qui: solo cosa ho misurato e come, perché il confronto sia onesto.

01

30 domande a scelta multipla

«Problemi facili che gli LLM sbagliano»: enigmi, conteggio, spazio, lingua. Quattro opzioni, una giusta.

02

Locali vs API

Modelli piccoli su un Jetson Orin (Qwen 35B, Gemma 12B) contro Claude (Haiku/Sonnet/Opus) e OpenAI (GPT-5.4/5.5).

03

Due assi: giusto e veloce

Per ogni modello: accuratezza (% di risposte corrette) e tempo per domanda. Vince chi sta in alto a sinistra.

04

Ripetuto e ripulito

Ogni configurazione è ripetuta più volte (media + intervallo), e si scartano le prove incomplete: contano solo quelle con tutte e 30 le risposte.

Classifica

Chi risponde meglio.

Il miglior risultato di ogni famiglia di modelli, per accuratezza media. locale = gira sul Jetson (Qwen, Gemma); open = modello a pesi aperti (anche via API); senza badge = frontier proprietario (Claude, OpenAI). La barra mostra l'intervallo tra le ripetizioni.

Le 30 domande

Domanda per domanda.

Per ogni domanda: le opzioni (in giallo la corretta) e come sono andate le famiglie di modelli. Pallino pieno = la famiglia l'ha azzeccata nella maggioranza delle prove; vuoto = sbagliata. Le tre con il bordo nero non le ha risolte nessuno.

Conclusioni