Stesso quiz di 30 domande-trappola dato a due mondi: i modelli piccoli (SLM) che girano in locale su una Jetson Orin, e i modelli di frontiera via API. Quanto si avvicinano i piccoli ai grandi, in precisione e in velocità?
Le 30 domande provengono da llm-quiz.com/quiz e sono state tradotte in italiano.
Ogni punto è una configurazione. In alto = più accurato; a sinistra = più veloce. I modelli via API (a sinistra) sono molto più rapidi dei locali (a destra), a parità o meglio di accuratezza.
Per i due modelli locali sulla Jetson, come cambia l'accuratezza al crescere del budget di «ragionamento» (token di thinking concessi al modello). 0 = nessun ragionamento. La banda è l'intervallo tra le ripetizioni.
Il guadagno sale e poi satura: oltre un certo budget ragionare di più non aiuta. È la stessa dinamica che si vede sui modelli di frontiera.
Niente codice qui: solo cosa ho misurato e come, perché il confronto sia onesto.
«Problemi facili che gli LLM sbagliano»: enigmi, conteggio, spazio, lingua. Quattro opzioni, una giusta.
Modelli piccoli su una Jetson Orin (Qwen 35B, Gemma 12B) contro Claude (Haiku/Sonnet/Opus) e OpenAI (GPT-5.4/5.5).
Per ogni modello: accuratezza (% di risposte corrette) e tempo per domanda. Vince chi sta in alto a sinistra.
Ogni configurazione è ripetuta più volte (media + intervallo), e si scartano le prove incomplete: contano solo quelle con tutte e 30 le risposte.
Il miglior risultato di ogni famiglia di modelli, per accuratezza media. I due locali (Qwen, Gemma, su Jetson) sono segnati «locale»; gli altri sono frontier via API. La barra mostra l'intervallo tra le ripetizioni.
Per ogni domanda: le opzioni (in giallo la corretta) e come sono andate le famiglie di modelli. Pallino pieno = la famiglia l'ha azzeccata nella maggioranza delle prove; vuoto = sbagliata. Le tre con il bordo nero non le ha risolte nessuno.