Il progetto ha coinvolto la creazione e l'ottimizzazione di un modello di intelligenza artificiale per l'identificazione e la classificazione delle lesioni cutanee utilizzando reti Vision Transformer (ViT) con modelli pre-allenati.
Il modello utilizza un'architettura ViT_32 con pesi pre-allenati ma senza un livello di classificazione superiore. L'attivazione per il livello di output è una softmax. Il modello ViT è integrato in un modello sequenziale, con l'aggiunta di strati come flattening, normalizzazione batch e strati densi con attivazione GeLU. Per l'ottimizzazione, è stato utilizzato l'ottimizzatore Adam con una funzione di perdita "sparse categorical cross-entropy".
Inoltre, sono state implementate tecniche come l'early stopping, il model checkpointing e uno scheduler del tasso di apprendimento durante l'addestramento per garantire l'efficienza e l'efficacia del modello. L'early stopping previene l'overfitting interrompendo l'addestramento quando le prestazioni del modello sul set di validazione si stabilizzano. Il model checkpointing garantisce il mantenimento dei pesi del modello migliore, migliorando la robustezza complessiva. Lo scheduler del tasso di apprendimento, mediante un aggiustamento dinamico, mira a trovare un programma ottimale per il tasso di apprendimento, accelerando potenzialmente la convergenza e migliorando le prestazioni finali del modello.
Il modello è stato addestrato per 20 epoche con 32 campioni utilizzati in ciascuna iterazione. I risultati ottenuti hanno mostrato promettenti miglioramenti, sebbene ci siano ancora spazi per ulteriori ottimizzazioni, come l'aumento delle epoche di addestramento e l'introduzione di tecniche come la k-fold cross-validation durante la suddivisione del dataset. Il bilanciamento del dataset risulta particolarmente importante ed essenziale per affrontare i problemi di squilibrio di classe rilevati in fase di analisi e migliorare ulteriormente le prestazioni del modello.