Claude Code, Codex e Pi possono creare i propri agenti di intelligenza artificiale

L’intelligenza artificiale secondo Anthropic sta diventando sempre più utile, integrata e connessa. E’ il caso dei nuovi agenti AI autonomi

L’intelligenza artificiale basata su agenti è la grande novità del momento, con nomi come OpenClaw e NemoClaw che riempiono le pagine dei giornali, consigliandoti di usarli o di starne alla larga. Gli agenti possono organizzare il tuo computer o svuotare la tua casella di posta, e Microsoft vuole integrarli ovunque su Windows.

Il fatto è che le capacità dei modelli LLM avanzati come Claude stanno aumentando più velocemente di quanto riusciamo a scrivere nei semplici casi d’uso. Non sono passati nemmeno sei mesi da quando gli orchestratori per Claude e altri modelli LLM hanno iniziato a prendere il sopravvento su GitHub, ma questo è un periodo lunghissimo nel mondo dell’informatica.

Quanto sono migliori? Beh, un nuovo studio ha confrontato diversi LLM auto-organizzanti, e i creatori dei progetti su GitHub non saranno contenti dei risultati, perché in parte dimostra il valore delle gerarchie predefinite, ma solo quando gli LLM sono in grado di auto-organizzarsi all’interno di tale struttura.

In breve? Gli agenti LLM sono molto più capaci di quanto pensassimo e hanno solo bisogno di un piccolo incoraggiamento per dare il meglio di sé quando viene loro assegnato un problema e a collaborare tra di loro.

L’architettura multi-agente ha un problema. Quando un output diventa un input, le imprecisioni si moltiplicano

Costruire un sistema su larga scala è difficile, perché bisogna garantire la validità dei dati, indipendentemente dalla loro provenienza o dal percorso che hanno seguito. Sappiamo tutti che gli agenti di intelligenza artificiale possono avere allucinazioni, mentire, inventare cose o essere imprecisi in parte dei loro risultati, pur fornendo un feedback apparentemente valido.

Con gli orchestratori multi-agente, questo problema si moltiplica, perché ogni imprecisione si accumula. Fino a che punto? Ebbene, DeepMind di Google lo ha testato, con 180 configurazioni su 5 architetture di agenti e tre principali modelli lineari latenti (LLM). Il risultato? Le reti multi-agente non strutturate amplificano gli errori fino a 17,2 volte rispetto ai modelli di riferimento a singolo agente.

Le reti multi-agente non strutturate amplificano gli errori fino a 17,2 volte

La ricerca ha anche dimostrato che i miglioramenti prestazionali non si estendevano oltre i quattro agenti, poiché i costi di coordinamento annullavano qualsiasi beneficio. Questo sembra in netto contrasto con le aziende del settore, le quali utilizzano da 6 a 20 agenti contemporaneamente per scomporre compiti complessi.

Ma anche se i singoli agenti potessero raggiungere un’affidabilità del 99%, la matematica complessa è pur sempre matematica complessa e quell’1% diventerebbe un problema oltre un singolo agente, figuriamoci oltre 20.

La ricerca è in ritardo rispetto alla pratica

Come abbiamo visto di recente con OpenClaw, è più veloce costruire qualcosa che renderla sicura. I modelli di intelligenza artificiale si stanno ormai auto-costruendo e la ricerca sulle loro interazioni non può iniziare finché i modelli non vengono rilasciati ai ricercatori.

Lo stesso ritardo si verifica quando si sviluppano strumenti per l’IA dove si spera che i modelli non diventino così potenti da rendere obsoleti gli strumenti prima del loro rilascio. E con gli strumenti multi-agente, quel momento è arrivato.

Un recente articolo mette in discussione la gerarchia multi-agente

L’articolo è “Drop the Hierarchy and Roles: How Self-Organizing LLM Agents Outperform Designed Structures ” ed è interessante non solo per i risultati, ma anche per la completezza con cui hanno testato la loro ipotesi.

Hanno utilizzato 25.000 attività distribuite su otto modelli LLM, con un numero di agenti variabile da quattro a 256 e otto protocolli di coordinamento. I risultati hanno mostrato il miglioramento maggiore con un approccio ibrido, in cui la struttura di base era predefinita, ma i singoli agenti erano in grado di auto-organizzarsi per adattarsi ai propri ruoli.

L’implicazione pratica è quella di fornire agli agenti una missione, un protocollo e un modello valido, non un ruolo predefinito. Ciò non significa che il modello del coordinatore sia privo di valore.

Chiaramente lo è, altrimenti i modelli ibridi non avrebbero successo. È simile all’ingegneria dei prompt, ma applicata su larga scala. Assegnare agli agenti autonomi una missione da portare a termine, un protocollo da seguire e un modello pertinente da utilizzare non è diverso dal fornire prompt a un chatbot, con la differenza che non richiede alcun intervento umano in seguito.

Ma hanno anche fatto emergere molti altri spunti interessanti. Modelli meno performanti come GLM-5 funzionavano meglio con ruoli rigidi e assegnati e una gerarchia di orchestrazione. Modelli più potenti come Claude Sonnet 4.6 e DeepSeek v3.2 ottenevano le migliori prestazioni con linee guida minime, e i modelli open-source si attestavano entro il 95% delle prestazioni dei modelli closed-source, dimostrando che è possibile ridurre i costi senza sacrificare la qualità.

Gli agenti auto-organizzanti sono più precisi, per ora

Sebbene il modello ibrido sia attualmente più avanzato, la ricerca sui modelli lineari di apprendimento (LLM) si sta evolvendo sempre più rapidamente. I singoli agenti possono creare sub-agenti e organizzare la propria piccola forza lavoro, e con modelli più potenti, si apre la possibilità di non dover definire una struttura rigida, ma piuttosto un “come” ogni compito debba essere svolto.

È impressionante, ma è anche affascinante osservare come i computer organizzano i loro flussi di lavoro, rispetto agli organigrammi che gli esseri umani hanno adattato nel corso degli anni. L’AI è ormai ovunque.

FONTE

INDICE DEI CONTENUTI

Toggle