Anthropic ha appena rilasciato Claude Opus 4.8. E’ notevolmente più onesto e segnala maggiormente l’incertezza e ricorre meno alle allucinazioni
Se mai aveste bisogno di una prova che il mondo della tecnologia AI si muove alla velocità della luce, vi basta dare un’occhiata a ciò che sta facendo Anthropic. Poco più di un mese fa, Anthropic aveva appena rilasciato al pubblico Opus 4.7 e che il nuovo modello presentava notevoli miglioramenti rispetto al precedente.
Ebbene, a distanza di circa un mesetto, Opus 4.7 è ormai superato e la versione 4.8 è già ufficiale per far sembrare obsoleto il modello precedente più “vecchio”. Un notevole miglioramento ovunque, sia contro le allucinazioni che con il ragionamento.
Claude Opus 4.8 registra risultati di benchmark persino migliori rispetto al modello precedente
La nuova versione di Claude si chiama sempre Opus ma ha come numero la 4.7 e segna un incremento delle prestazioni ovunque e a confronto con la concorrenza i risultati sono impressionanti, dimostrando di avere una marcia in più in pratica sotto ogni punto di vista.
Sul blog ufficiale, Anthropic ha illustrato le novità di Claude Opus 4.8. Nella tabella qui sopra è possibile osservare i progressi compiuti dall’azienda rispetto alla versione 4.7. Gli aggiornamenti più significativi riguardano la codifica agentica (con un incremento di quasi il 5% delle funzionalità) e la codifica terminale agentica (con un incremento di oltre l’8%).
Ricordiamo che Claude Opus 4.7 è uscito a metà aprile e Anthropic sta già rilasciando una nuova versione con importanti miglioramenti. Tuttavia, oltre agli aggiornamenti statistici, il modello Opus 4.8 di Claude presenta una piacevole caratteristica aggiuntiva che non vi mentirà più così spesso.
Come afferma Anthropic:
Uno dei miglioramenti più significativi di Opus 4.8 è la sua onestà. Addestriamo tutti i nostri modelli a essere onesti, ad esempio, a evitare di fare affermazioni che non possono supportare. Ma un problema comune dei modelli di intelligenza artificiale è che a volte traggono conclusioni affrettate, affermando con sicurezza di aver fatto progressi nel loro lavoro nonostante le prove siano scarse. I primi tester segnalano che Opus 4.8 è più propenso a segnalare le incertezze sul proprio lavoro e meno propenso a fare affermazioni infondate.
Puoi provare subito Claude Opus 4.8, quindi assicurati di testarlo e vedere come migliora il tuo flusso di lavoro. E immagino che ci rivedremo il mese prossimo, quando Anthropic rilascerà inevitabilmente Opus 4.9. Un ritmo pazzesco di novità ormai con cadenza mensile.

Lascia un commento