Open Source AI: una definizione in evoluzione tra etica, licenze e trasparenza

L’Open Source Initiative (OSI), l’organizzazione che da decenni definisce i criteri per il software open source, ha recentemente pubblicato una definizione dedicata all’AI. L’obiettivo è chiarire cosa rende un modello AI davvero aperto, in un contesto dove la trasparenza e l’accessibilità sono spesso limitate.

Secondo l’OSI, un modello AI può essere considerato open source solo se rispetta alcuni principi fondamentali: deve essere rilasciato con una licenza approvata, deve fornire accesso al codice, agli strumenti di addestramento e a una descrizione dettagliata dei dati utilizzati. Tuttavia, non è richiesto che i dati siano pubblici, poiché spesso non è possibile condividerli per motivi di copyright. Questo punto ha suscitato critiche da parte di chi vorrebbe una definizione più radicale, che includa anche la piena disponibilità dei dataset.

Durante l’Open Source Summit di Amsterdam, il direttore dell’OSI Stefano Maffulli ha spiegato che la definizione è pensata come strumento di dialogo, non come standard rigido. È già stata utilizzata per influenzare le linee guida dell’AI Act europeo, che entrerà in vigore nell’agosto 2026. L’AI Act prevede esenzioni specifiche per i modelli open source, a patto che siano trasparenti e documentati. Questo approccio mira a favorire lo sviluppo pubblico e accademico dell’AI, riducendo gli ostacoli burocratici.

Dati, licenze e il futuro dell’AI pubblica

Uno dei nodi centrali del dibattito riguarda i dati di addestramento. Maffulli sottolinea che molte aziende stanno cercando di costruire dataset più “resilienti” dal punto di vista legale, ma la questione del copyright rimane aperta. Le eccezioni per il text and data mining permettono di raccogliere dati dal web, analizzarli e poi eliminarli, ma non di conservarli. Questo limita la possibilità di creare dataset pubblici e condivisibili, fondamentali per un’AI veramente open.

Il panorama si complica ulteriormente con la crescente difficoltà nel reperire dati di qualità. Progetti come Common Crawl, che forniscono enormi quantità di dati web, stanno incontrando ostacoli: molti siti chiedono di essere esclusi, e il web stesso è sempre più “inquinato” da contenuti generati da AI. Inoltre, i rapporti tra modelli AI e editori online sono tesi. I modelli dipendono da fonti come Reddit, Stack Overflow e testate giornalistiche, ma queste piattaforme vivono grazie al traffico generato dai motori di ricerca, che le AI rischiano di sostituire.

Maffulli propone un’idea provocatoria: per avere un’AI pubblica, bisogna proteggere il web pubblico e rivedere il ruolo degli editori. Paragona la situazione al caso Google Books, dove la digitalizzazione dei testi ha sollevato questioni simili. Secondo lui, se un’istituzione come l’Allen Institute for AI vuole costruire un modello pubblico, dovrebbe poter accedere ai dati senza vincoli commerciali. Al contrario, chi sceglie accordi privati con aziende come OpenAI può farlo, ma non dovrebbe influenzare l’accesso pubblico.

La mancanza di un quadro legale e tecnico chiaro rende difficile bilanciare gli interessi. Per costruire dataset realmente condivisibili, servono nuove forme di governance, strumenti per verificare la proprietà dei dati e regole che favoriscano la collaborazione. L’OSI non impone sanzioni, ma cerca di guidare il dibattito, come ha fatto in passato con il software libero. Anche per l’AI, la definizione open source dovrà evolversi insieme alla tecnologia e alla società.

L’AI open source è una sfida collettiva

La definizione di AI open source proposta dall’OSI è un primo passo verso una maggiore trasparenza e accessibilità nel mondo dell’intelligenza artificiale. Non è perfetta, e non tutti i modelli la rispettano, ma offre una base su cui costruire. Per la comunità Linux e open source, questo significa avere un ruolo attivo nel plasmare il futuro dell’AI, evitando che resti dominio esclusivo di poche aziende.

La strada è lunga e complessa, ma il dialogo è aperto. Con il supporto di istituzioni, sviluppatori e utenti, l’AI può diventare uno strumento pubblico, verificabile e condiviso. E come accaduto con il software libero, anche questa rivoluzione potrebbe partire dal basso.

Lascia un commento