Il mondo dell’AI sta conoscendo un’esplosione senza senso, ma nel mondo dei modelli AI le più performanti e potenti non le conoscono in molti. Ecco quelle da approfondire
Anche quest’anno gli argomenti di intelligenza artificiale si sprecano ovunque e tra i leader di mercato troviamo senza dubbio Claude, ChatGPT e Gemini e per la maggior parte delle persone, questi sono i nomi di “IA”, e tutto il resto è rumore di fondo.
Il settore dei modelli open-weight ha vissuto uno dei periodi più frenetici degli ultimi mesi, con importanti rilasci quasi ogni settimana nella prima metà del 2026. Molti di questi modelli funzionano su hardware effettivamente disponibile e alcuni di essi eguagliano i tre principali motori di calcolo nei benchmark più importanti.
Inoltre, alcuni di essi si cimentano in attività che altre AI non sono disposti a provare. Anche la provenienza dei modelli di IA open-weight è drasticamente diversa da quella dei modelli chiusi, dato che la maggior parte dei rilasci più significativi di quest’anno proviene dalla Cina.

A parte i modelli gpt-oss di OpenAI e i modelli Gemma 4 di Google, e con qualche altro modello che sostituirà Claude nel tuo lavoro quotidiano, i modelli AI là fuori sono davvero tanti e non è detto che i tre citati siano i migliori … anzi.
Ecco alcuni modelli AI alternativi ai soliti Claude, ChatGPT e Gemini che sono anche più potenti
Ecco alcuni modelli di AI che sono più potenti di Claude, ChatGPT e Gemini. Infatti se i nomi sulla bocca di tutti sono i nomi dei giganti tech, esistono molte altre alternative solide, concrete e anche più potenti.
Il 7 aprile, Z.ai (precedentemente noto come Zhipu AI) ha rilasciato GLM-5.1, che ha ottenuto un punteggio di 58.4 su SWE-Bench Pro. Questo risultato lo ha posizionato al di sopra di GPT-5.4 (57.7) e Claude Opus 4.6 (57.3) nel benchmark che è diventato di fatto la misura standard della programmazione agentica.
Poi Moonshot AI ha rilasciato Kimi K2.6, che ha superato di poco GLM-5.1 con un punteggio di 58.6. Entrambi questi modelli si trovano più in alto in quella particolare classifica rispetto a qualsiasi prodotto acquistabile da OpenAI, Google o Anthropic.
Sebbene sia possibile che questi modelli vengano addestrati su dati per manipolare il sistema, la questione non è così semplice come sembra. La cosa interessante di Kimi K2.6 e GLM-5.1 è che nessuno dei due è distribuito con una licenza proprietaria.
GLM-5.1 è rilasciato sotto licenza MIT, il che significa che è possibile scaricarlo, ottimizzarlo e distribuire prodotti basati su di esso senza royalty o restrizioni d’uso, mentre Kimi K2.6 è distribuito sotto una licenza MIT modificata.
I migliori modelli open source sono in cima alle classifiche per quanto riguarda la programmazione (se escludiamo Mythos di Claude, ovviamente) e, tecnicamente, chiunque può semplicemente scaricarli e utilizzarli.
Tuttavia, anche se questi modelli non sono “ottimizzati al massimo”, i benchmark non si traducono perfettamente nel comportamento pratico di un modello. Anche altri benchmark sono importanti, come Terminal-Bench 2.0 e NL2Repo, dove Opus 4.7 è ancora in testa.
Nonostante Opus 4.7 sia probabilmente ancora il migliore in assoluto per quanto riguarda i modelli di codifica, il divario tra questi modelli è minimo quando vengono eseguiti sulla maggior parte delle attività, ed è il più piccolo mai registrato.
Meta, in particolare, non è nemmeno presa in considerazione in questa discussione. Llama non ha una versione pubblica da oltre sei mesi e la vetta della classifica dei benchmark open-weight di quest’anno è occupata solo da sviluppi Cinesi.

GLM-5.1 è enorme, potente e fuori dalla portata della maggior parte delle persone
GLM-5.1 è un modello misto di esperti, con un numero di parametri compreso tra 700 e 800 miliardi, e il dettaglio più interessante non riguarda la sua architettura. È stato addestrato su 100.000 chip Huawei Ascend 910B, senza alcun hardware Nvidia noto in fase di sviluppo.
Questo è particolarmente interessante, dato che uno dei presupposti di lavoro degli ultimi tre anni era che l’addestramento serio dei modelli avvenisse solo su Nvidia, e GLM-5.1 dimostra esattamente il contrario.
Z.ai, il laboratorio che lo ha sviluppato, ha completato la sua IPO a Hong Kong l’8 gennaio 2026, raccogliendo circa 4,35 miliardi di HKD, diventando così una delle prime aziende con modello di fondazione quotate in borsa.

MiniMax M2.7 vuole evolversi
MiniMax ha rilasciato M2.7 il 18 marzo, e si posiziona in una posizione molto più interessante per chiunque stia pensando di eseguire un modello a casa. Si tratta di un modello misto di expert da 230 miliardi con solo 10 miliardi di parametri attivi per token, otto dei 256 expert instradati per token, una finestra di contesto di 205.000 e un punteggio vicino a GPT-5.3-Codex del 56,22% su SWE-Pro.
Su Terminal Bench 2.0 ottiene un punteggio del 57,0%, che è più o meno nello stesso ordine di grandezza di GPT-5.3-Codex. Per un modello che si può scaricare gratuitamente, è un risultato davvero notevole.
MiniMax ha affermato che il modello è “auto-evolutivo”, descrivendo M2.7 come una delle prime dimostrazioni di modelli che migliorano autonomamente attraverso un processo di apprendimento per rinforzo a ciclo chiuso, utilizzando il modello stesso all’interno del ciclo.
Inizialmente MiniMax ha pubblicato M2.7 con una licenza permissiva, poi ha modificato il repository di Hugging Face passando a una licenza non commerciale in stile MIT poco dopo il rilascio. L’uso personale, la ricerca e la sperimentazione sono consentiti, e ci sono stati alcuni messaggi contrastanti da parte di MiniMax su altre piattaforme.

I modelli che effettivamente vengono eseguiti sul tuo hardware
Step 3.5 Flash di Stepfun è un modello incredibile di cui non si parla abbastanza. Si tratta di un MoE da 196B con 11B di parametri attivi, una finestra di contesto da 262K e un trucco per la velocità che la maggior parte dei modelli non si preoccupa di implementare.
Stepfun ha investito molto nell’accessibilità hardware. Il Mac Studio M4 Max e il DGX Spark sono entrambi indicati come target di prima classe ed entrambi eseguiranno il modello senza problemi con quantizzazioni di livello professionale.
La combinazione dei vantaggi in termini di velocità offerti da MTP e delle architetture a memoria unificata di queste macchine è il motivo per cui Step 3.5 Flash risulta più simile a un modello cloud rispetto a qualsiasi altra soluzione eseguibile localmente oggi.
È possibile abbinarlo a schede come la RTX 4080, la RTX 5090 o un computer basato su Gigabyte 10 e ottenere risultati utilizzabili su tutti e tre i casi. Richiede comunque hardware di fascia alta, ma non è necessario disporre di componenti da laboratorio per poterlo utilizzare.

Il MiMo di Xiaomi è potente
Il 18 marzo Xiaomi ha rilasciato anche MiMo-V2-Pro, una novità di grande rilievo. Vanta un trilione di parametri totali, 42 miliardi di parametri attivi, una finestra di contesto da 1 milione di token ed è stato brevemente disponibile su OpenRouter con il nome in codice Hunter Alpha prima del lancio ufficiale da parte di Xiaomi.
È accessibile solo tramite API. Luo Fuli (il ricercatore principale del progetto) ha affermato che Xiaomi prevede di rendere open source una variante della famiglia ” quando i modelli saranno sufficientemente stabili da meritarlo “, ma al momento non è possibile scaricarla.
Nei benchmark, MiMo-V2-Flash supera modelli più grandi e complessi, sebbene Xiaomi non abbia dato a Flash lo stesso risalto mediatico che ha dato a Pro. Questo è in parte dovuto a una scelta di marketing e in parte al fatto che Flash non punta a essere il modello di punta, ma il fratello maggiore intelligente, veloce e auto-ospitante.

Qwen 3.6 è appena uscito, ed è un rilascio di tipo diverso
Se dovessi scegliere la release più interessante degli ultimi due mesi, sarebbe senza dubbio Qwen 3.6. Il team Qwen di Alibaba ha recentemente rilasciato due modelli open-weight, Qwen3.6-27B e Qwen3.6-35B-A3B, e si distingue da tutti gli altri in questa lista per qualcosa di diverso.
A partire dalla licenza, entrambi i modelli sono Apache 2.0, una licenza insolitamente permissiva. Il numero ridotto di parametri attivi si traduce in un costo di esecuzione significativamente inferiore rispetto a quanto la sua dimensione totale lascerebbe intendere. Per le attività che coinvolgono agenti, dove si gestiscono molti token e la velocità è un fattore critico, il modello 35B è probabilmente la scelta migliore.
Entrambi i modelli includono la conservazione del pensiero, che consente al modello di mantenere il contesto di ragionamento dei turni precedenti di una conversazione. La maggior parte dei modelli o scarta la catena di pensiero tra i messaggi o la riscrive da zero, ed entrambe le soluzioni hanno un costo in token.
Al di sopra della coppia open-weight si trova Qwen3.6-Max-Preview, rilasciato il 20 aprile e attualmente fiore all’occhiello della famiglia Qwen. Non è open-weight (il livello Max di Qwen non lo è mai stato) ed è disponibile tramite Alibaba Cloud Model Studio e Qwen Studio.
Come la Xiaomi MiMo V2 Pro, non è autogestibile, ma la famiglia Qwen 3.6 è interessante proprio perché abbraccia entrambi gli ambiti. I modelli open-weight 27B e 35B-A3B rappresentano una seria novità per la community, mentre Max-Preview è il modello di punta che lo stesso laboratorio ha sviluppato sulla base della stessa ricerca.
Kimi K2.6 vuole essere il tuo agente lavoratore
Kimi K2.6 di Moonshot è la versione più recente, rilasciata il 21 aprile. Si tratta di un modello MoE con 1T di parametri, 32 miliardi di nodi attivi, attenzione MLA, una finestra di contesto di 256.000 parole, una licenza MIT modificata e quantizzazione nativa INT4, quindi non è necessario occuparsi dell’analisi quantitativa.
La caratteristica principale è che K2.6 può scalare dinamicamente fino a 300 sub-agenti che operano simultaneamente. Il sistema esegue internamente un pianificatore gerarchico, assegnando i sotto-problemi a istanze parallele di se stesso e coordinandone i risultati.
Se svolgete un lavoro in cui desiderate che un agente si occupi di risolvere un problema complesso mentre voi vi dedicate ad altro, K2.6 è il primo modello open source che sembra davvero in grado di gestire al meglio questo tipo di flusso di lavoro.
Questa è una delle versioni più interessanti, e non perché sia la migliore in assoluto. Tuttavia, è il primo modello open source progettato esplicitamente per un lavoro autonomo e continuativo, senza bisogno di supervisione costante.
Il mondo delle competizioni a peso libero non ha bisogno di sostituire Claude
I modelli in alto, rappresentano le versioni più importanti e quelle con cui la maggior parte delle persone entrerà in contatto per prime. Ma c’è qualcosa di ancora più interessante in ciò che permettono le ottimizzazioni.
La maggior parte di esse è di piccole dimensioni, specializzata e molte sono migliori di un modello di frontiera nell’unica attività per cui sono state addestrate. Non è più intelligente nel complesso rispetto ad altri modelli molto più grandi, ma poiché è stato addestrato sulla forma esatta del problema, acquisisce una capacità eccezionale e molto specifica in un compito particolare che altri non hanno l’addestramento specializzato per eguagliare.
Il mondo delle competizioni a peso libero non sostituirà Claude per la maggior parte delle persone, ma non è necessario che lo faccia. Piuttosto, offre alle persone un’alternativa, e la scelta non è mai stata così difficile da fare.









































Lascia un commento
Visualizza commenti