5 skill di Claude Code che tagliano i costi dei token fino al 70% — benchmark su sessioni reali

Un benchmark che nessuno aveva chiesto, ma di cui tutti avevano bisogno

Qualcuno ha eseguito 12 sessioni automatizzate di Claude Code: sei con un plugin chiamato Superpowers installato, sei senza, usando prompt identici e lo stesso modello. Il risultato: esecuzioni più economiche del 9%, 14% di token consumati in meno e qualità dell’output misurabilmente migliore su tutto ciò che non era banalmente semplice. Non è una promessa marketing. È un test controllato, e i numeri sono abbastanza specifici da essere utili.

Se stai usando Claude Code senza plugin installati, è come usare il motore senza trasmissione. Il modello è capace. Manca l’impalcatura.

Questo articolo parla nello specifico del plugin Superpowers: cosa fa, perché i numeri del benchmark hanno senso e come si inserisce in un set più ampio di strumenti che può ridurre in modo significativo quello che spendi in token. Gli altri strumenti (Graphify, Firecrawl) sono trattati in articoli dedicati. Questo è sul plugin che ha prodotto i dati più sorprendenti nel benchmark.

Perché Claude Code spreca token di default

Ecco il punto che la maggior parte delle persone non realizza quando inizia a usare Claude Code: il comportamento predefinito del modello è mettersi subito a fare. Scrivi un prompt, lui inizia a scrivere codice. Nessuna domanda di chiarimento, nessun piano, nessuna verifica finale.

Sembra efficiente. Non lo è.

Quando Claude fraintende ciò che volevi, e succede, soprattutto su qualsiasi cosa con ambiguità, tu spendi token a correggere la cosa sbagliata. Rifai il prompt. Correggi. Riesegui. Il costo totale in token di un task frainteso è quasi sempre più alto del costo di qualche domanda di chiarimento fatta prima.

Questo è il problema centrale che Superpowers risolve. Installa 14 skill dentro Claude Code e forza un processo in cinque fasi su ogni task: chiarire, progettare, pianificare, codificare, verificare. Prima che Claude scriva una sola riga, si ferma e fa le domande giuste. Mappa il piano con percorsi file precisi e suddivisione delle attività. Alla fine verifica che ciò che ha costruito funzioni davvero.

Il -14% di token nel benchmark non è magia. È la differenza tra fare un task una volta sola nel modo corretto e farlo due volte perché il primo tentativo era fuori bersaglio.

Se vuoi il contesto più ampio sulla gestione token in Claude Code, l’articolo “18 Claude Code token management hacks” copre l’intero panorama. Ma Superpowers affronta la categoria più costosa: il rework causato da disallineamento.

Il benchmark, spiegato

Dodici sessioni automatizzate. Sei con Superpowers, sei senza. Stessi prompt, stesso modello, misurate su task reali.

Numeri principali: 9% più economico, 14% meno token, qualità migliore sui task complessi. Il miglioramento qualitativo è più difficile da quantificare con precisione, ma il risparmio token è concreto, e si accumula. Se usi Claude Code ogni giorno, un -14% di consumo token diventa significativo a fine mese.

Cosa spiega lo scarto? Alcuni fattori.

Primo: la fase di chiarimento intercetta i fraintendimenti prima che diventino costosi. Quando Claude fa una domanda invece di indovinare, la risposta costa quasi nulla. Quando Claude indovina male e costruisce la cosa sbagliata, la correzione costa molto.

Secondo: la pianificazione con percorsi file espliciti e task breakdown evita che Claude debba rileggere l’intero codebase per capire dove intervenire. Lo sa già. Questo è risparmio token diretto in ogni fase successiva.

Terzo: la verifica finale intercetta bug prima che li trovi tu. Un bug che scopri dopo che Claude ha finito è un bug che correggi in una nuova sessione, con nuovo caricamento di contesto. Un bug intercettato in verifica viene corretto nella stessa sessione, a costo inferiore.

La struttura in cinque fasi non è burocrazia. È efficienza token mascherata da processo.

Installazione (richiede una sola conversazione)

L’installazione è davvero semplice. Apri Claude Code, scrivi plugin in chat, premi invio. Si apre il marketplace plugin di Claude Code. Prendi il link GitHub di Superpowers dalla descrizione del progetto, incollalo nella ricerca del marketplace, aggiungilo, trovalo nella sezione plugin, abilitalo.

Una conversazione. Fatto.

Avvertenza importante: non usare Superpowers per lavori di design iterativo velocissimo. Se vuoi solo cambiare il colore di un bottone o ritoccare una headline, il processo in cinque fasi è eccessivo: ti rallenta senza un beneficio reale. Superpowers dà il massimo su nuove feature, nuovi progetti, qualsiasi task con vera ambiguità su cosa significhi “finito”.

La funzione di brainstorming visuale di cui non parla quasi nessuno

I numeri del benchmark prendono quasi tutta l’attenzione, ma dentro Superpowers c’è una funzione che potrebbe essere ancora più utile per evitare sprechi di token: il companion per brainstorming visuale.

Quando chiedi a Claude di progettare qualcosa, Superpowers avvia una dashboard web locale che ti mostra mockup e opzioni di layout prima che Claude si impegni a costruire qualsiasi cosa. Tu scegli ciò che sembra giusto. Claude costruisce da lì.

Questo conta, perché la fonte più comune di spreco token nel lavoro UI non è codice sbagliato, è codice corretto per un design sbagliato. Descrivi ciò che vuoi, Claude lo implementa, lo guardi e capisci che non era quello che intendevi. Rifai prompt. Claude ricostruisce. Hai appena speso due o tre volte i token necessari.

Vedere i mockup prima di scrivere una singola riga elimina del tutto questa modalità di fallimento. È la fase di chiarimento applicata al lavoro visuale: difficile da benchmarkare con precisione, facilissima da percepire nel workflow.

Come si inserisce nello stack più ampio di riduzione token

Superpowers è un pezzo di un set più ampio di strumenti, ognuno mirato a un diverso tipo di spreco token.

Graphify, ispirato al lavoro di Andrej Karpathy sui knowledge graph, affronta un problema diverso: il costo di navigazione nei codebase grandi. Ogni nuova sessione di Claude Code deve rileggere i file per capire cosa è collegato a cosa. Su progetti piccoli va bene. Su progetti con centinaia di file, Claude spende una quantità significativa di token solo per orientarsi prima di poter aiutare. Graphify pre-mappa tutte le relazioni tra file in un knowledge graph interrogabile, così Claude può andare direttamente alle parti rilevanti invece di rileggere tutto da zero. Il risparmio riportato arriva fino a 70x di costo in meno su codebase grandi; l’articolo dedicato lo copre in dettaglio per progetti da 500+ file.

Firecrawl affronta invece lo scraping web. L’HTML grezzo è rumoroso: cookie banner, ads, artefatti JavaScript, elementi di navigazione. Quando Claude legge una pagina grezza, elabora molta spazzatura prima di arrivare al contenuto reale. Firecrawl converte qualsiasi URL in dati strutturati puliti, con riduzione token fino all’80% rispetto a passare HTML grezzo direttamente. L’articolo “Firecrawl MCP setup” spiega in dettaglio la configurazione del connettore.

Poi c’è la libreria Awesome Design: una collezione GitHub di 68 design system completi reverse-engineered da brand come Apple, Lamborghini e Claude stesso. Ogni sistema include tipografia, palette colori, regole di spacing e stili component. Tu dici a Claude quale usare e lui costruisce il sito in quell’estetica. Questo non riduce direttamente i token, ma elimina il ping-pong di iterazioni design che li brucia: ottieni un risultato professionale al primo passaggio invece che al quinto.

Per i team che costruiscono workflow agentici più complessi, piattaforme come MindStudio gestiscono il livello di orchestrazione: 200+ modelli, 1.000+ integrazioni e un builder visuale per concatenare agenti e workflow, così puoi applicare logiche di efficienza token a livello di sistema, non solo di singola sessione.

Le skill Audit e Level-up

Oltre al processo in cinque fasi, Superpowers installa due skill che vale la pena conoscere: audit e level-up.

La skill audit valuta il tuo “sistema operativo AI” su quattro dimensioni, contesto, connessioni, capacità e cadenza, e restituisce un punteggio su 100. È un modo strutturato per trovare gap nella tua configurazione. Se usi Claude Code da un po’ e senti che non stai ottenendo quanto dovresti, l’audit quasi sempre fa emergere qualcosa di specifico.

La skill level-up fa cinque domande: qual è la cosa più noiosa che fai ripetutamente? Cosa potrebbe fare uno stagista brillante se avessi tempo di spiegarglielo? Qual è il tuo vincolo principale? Cosa ti darebbe più leva se funzionasse in automatico? Raccontami la tua ultima settimana. Se rispondi onestamente, quasi sempre individui almeno un’opportunità di automazione a cui non avevi pensato.

Non sono funzioni appariscenti. Sono quel tipo di riflessione strutturata che quasi tutti saltano, ed è proprio per questo che sono preziose.

Integrazione con Notebook LM

Un’altra skill nell’ecosistema Superpowers che merita menzione: l’integrazione con Notebook LM.

Notebook LM di Google è uno strumento di ricerca che prende fonti, PDF, video YouTube, articoli web, e genera deck di slide, riepiloghi audio in stile podcast e mappe mentali. La maggior parte delle persone lo usa manualmente, aggiungendo fonti una per una. L’integrazione di Superpowers ti consente di automatizzare tutto con un unico prompt.

Puoi chiedere a Claude di ricercare un tema, caricare 20 fonti da YouTube e dal web, e generare un notebook con slide deck e overview podcast. Claude trova le fonti, le carica in Notebook LM e genera gli asset, senza che tu debba aprire Notebook LM una sola volta. Il tier gratuito di Notebook LM è illimitato, quindi l’unico costo sono i token Claude per l’orchestrazione.

È il tipo di workflow che sembra una piccola comodità, ma che si accumula parecchio se fai ricerca con frequenza.

Il vero argomento a favore dei plugin strutturati

Sotto tutto questo c’è un punto più profondo. Claude Code senza plugin è un modello capace senza impalcatura. Fa ciò che chiedi, ma non chiede se ciò che hai chiesto è davvero ciò che vuoi. Non pianifica prima di agire. Non verifica dopo aver finito.

Il benchmark Superpowers, 9% meno costi, 14% meno token, qualità migliore, è evidenza che la struttura non è overhead. La struttura è efficienza. Il processo in cinque fasi non rallenta Claude, impedisce a Claude di fare la cosa sbagliata a piena velocità.

Ecco anche perché il consiglio “usa semplicemente Claude Code” perde un pezzo importante. La capacità grezza del modello è alta, ma capacità grezza senza struttura produce risultati incoerenti e spesa token non necessaria. I plugin in questo ecosistema, Superpowers, Graphify, Firecrawl, Awesome Design, risolvono lo stesso problema di fondo da angolazioni diverse: come far fare a Claude la cosa giusta al primo tentativo.

Se guardi questo a livello applicativo, cioè costruire strumenti che devono generare codice o compilare da specifiche strutturate, Remy adotta un approccio correlato: scrivi l’app come specifica markdown annotata, e lui compila un backend TypeScript completo, database SQLite, auth e deploy. La specifica è la fonte di verità; il codice è output derivato. È un diverso livello di astrazione, ma la stessa logica: struttura a monte, meno rework a valle.

Cosa dicono davvero i numeri

Il benchmark su 12 sessioni è piccolo. Chiunque abbia fatto A/B test sa che 12 sessioni non sono un campione grande. Però la direzione dei risultati è coerente con il meccanismo, e il meccanismo ha senso.

Meno fraintendimenti → meno re-prompt → meno token. Pianificazione esplicita → meno ricarico contesto → meno token. Verifica durante la sessione → meno bug scoperti dopo → meno token in sessioni di follow-up.

Il -9% costo e -14% token non sono il tetto massimo. Sono il pavimento: il risparmio che ottieni installando il plugin e non facendo altro. Man mano che impari quali task beneficiano di più delle cinque fasi e quali no, il lavoro iterativo velocissimo non è un buon fit, come detto, il risparmio effettivo sale.

Il numero più interessante potrebbe essere il miglioramento qualità sui task complessi. Il costo token è facile da misurare. Il costo di una sessione Claude che produce qualcosa che non puoi usare davvero è più difficile da quantificare, ma è reale, ed è lì che vive il risparmio più grande.

Quattordici skill. Cinque fasi. Un benchmark controllato. Il caso a favore dei plugin strutturati in Claude Code non è più teorico.

Articolo originale: https://www.mindstudio.ai/blog/5-claude-code-skills-cut-token-costs-70-percent-benchmarked