Condividi tramite


Istruzioni di avvio rapido: creare un modello di classificazione delle immagini con il portale di Visione personalizzata

Importante

Microsoft annuncia il ritiro pianificato del servizio Visione personalizzata di Azure. Microsoft fornirà il supporto completo per tutti i clienti di Visione personalizzata di Azure esistenti fino al 25/09/2028. Durante questa finestra di supporto, i clienti sono invitati a iniziare a pianificare ed eseguire la transizione a soluzioni alternative. A seconda del caso d'uso, è consigliabile seguire i percorsi seguenti per la transizione:

  • Per la creazione di modelli personalizzati sia per la classificazione delle immagini che per il rilevamento degli oggetti, AutoML di Azure Machine Learning offre la possibilità di eseguire il training di entrambi i tipi di modello personalizzati usando tecniche classiche di Machine Learning
  • Altre informazioni su AutoML di Azure Machine Learning e su come può offrire supporto per il training di modelli personalizzati.

Microsoft sta anche investendo in soluzioni basate sull'intelligenza artificiale generative che aumentano l'accuratezza negli scenari personalizzati usando la progettazione dei prompt e altre tecniche.

  • Per usare i modelli generativi, è possibile usare uno dei modelli disponibili nel catalogo dei modelli di Azure AI Foundry e creare una soluzione personalizzata per la visione personalizzata.
  • Per una soluzione generativa gestita per la classificazione delle immagini, Azure AI Content Understanding (attualmente in anteprima pubblica) offre la possibilità di creare flussi di lavoro di classificazione personalizzati. Supporta anche l'elaborazione di dati non strutturati di qualsiasi tipo (immagine, documenti, audio, video) ed estrarre informazioni dettagliate strutturate in base a formati predefiniti o definiti dall'utente.
  • Altre informazioni sui modelli di Azure AI Foundry e sulla comprensione dei contenuti di Intelligenza artificiale di Azure (anteprima pubblica) e su come possono offrire percorsi alternativi per le esigenze personalizzate.

Per indicazioni più dettagliate sulla migrazione, vedere la Guida alla migrazione di Visione personalizzata di Azure.

Questa guida introduttiva spiega come usare il portale Web di Visione personalizzata per creare un modello di classificazione di immagini. Dopo aver compilato un modello, è possibile testarlo con nuove immagini e infine integrarlo nell'app di riconoscimento delle immagini.

Prerequisiti

Creare risorse di Visione personalizzata

Per usare il servizio Visione personalizzata, è necessario creare le risorse di training e previsioni di Visione personalizzata in Azure. Nella portale di Azure usare la pagina Crea Visione personalizzata per creare sia una risorsa di training che una risorsa di stima.

Creare un nuovo progetto

Passare alla pagina Web di Visione personalizzata, quindi accedere con lo stesso account usato per accedere al portale di Azure.

Screenshot in cui si vede la pagina di accesso di Custom Vision.

  1. Per creare il primo progetto, selezionare New Project (Nuovo progetto). Viene visualizzata la finestra di dialogo Crea nuovo progetto.

    Screenshot della finestra di dialogo Nuovo progetto, che include campi per nome, descrizione e domini.

  2. Immettere un nome e una descrizione per il progetto. Selezionare quindi la risorsa di training di Visione personalizzata. Se l'account connesso è associato a un account Azure, l'elenco a discesa Risorsa visualizza tutte le risorse Azure compatibili.

    Note

    Se non è disponibile alcuna risorsa, verificare di aver eseguito l'accesso customvision.ai con lo stesso account usato per accedere al portale di Azure. Conferma anche di aver selezionato la stessa directory nel sito Web di Visione personalizzata come quella nel portale di Azure dove si trovano le tue risorse di Visione personalizzata. In entrambi i siti è possibile selezionare la directory nel menu a discesa dell'account nell'angolo superiore destro dello schermo.

  3. Selezionare Classificazione in Project Types (Tipi di progetto). In Classification Types (Tipi di classificazione) scegliere quindi Multilabel (Multietichetta) o Multiclass (Multiclasse), a seconda del caso d'uso. La classificazione multietichetta applica un numero qualsiasi di tag a un'immagine (zero o più), mentre la classificazione multiclasse ordina le immagini in categorie singole (ogni immagine inviata viene ordinata nel tag più probabile). È possibile modificare il tipo di classificazione in un secondo momento, se si desidera.

  4. Selezionare quindi uno dei domini disponibili. Ogni dominio ottimizza il modello per tipi specifici di immagini, come descritto nella tabella seguente. Se lo si desidera, è possibile modificare il dominio in un secondo momento.

    Dominio Scopo
    Domande generiche Ottimizzato per un'ampia gamma di attività di classificazione di immagini. Se nessuno degli altri domini risulta appropriato o si è in dubbio sul dominio da scegliere, selezionare il dominio generico.
    Food (Cibo) Ottimizzato per fotografie di piatti come nel menù di un ristorante. Se si vogliono classificare fotografie di singoli frutti o verdure, usare il dominio Food (Cibo).
    Landmarks (Luoghi di interesse) Ottimizzato per i luoghi di interesse riconoscibili, sia naturali che artificiali. Il dominio offre i migliori risultati quando il luogo di interesse è chiaramente visibile nella fotografia. Il dominio è efficace anche se il luogo è leggermente nascosto da utenti posti davanti.
    Retail (Vendita) Ottimizzato per le immagini che si trovano in un catalogo di vendita o in un sito Web di vendita. Se si vogliono classificare con alta precisione vestiti, pantaloni e magliette o camicie, usare questo dominio.
    Domini compatti Ottimizzati per i vincoli di classificazione in tempo reale su dispositivi mobili. I modelli generati da domini compatti possono essere esportati per l'esecuzione in locale.
  5. Selezionare infine Crea progetto.

Scegliere le immagini di training

Come minimo, è bene usare almeno 30 immagini per ogni tag nel set di training iniziale. È anche necessario raccogliere alcune immagini aggiuntive per testare il modello dopo il training.

Per eseguire il training del modello in modo efficace, usare le immagini con diversi oggetti visivi. Selezionare immagini diverse per:

  • angolazione
  • illuminazione
  • background
  • stile visivo
  • soggetti singoli/raggruppati
  • size
  • tipo

Assicurarsi anche che tutte le immagini di training soddisfino i criteri seguenti:

  • devono essere in formato JPG, PNG, BMP o GIF
  • dimensioni massime pari a 6 MB (4 MB per le immagini per la previsione)
  • almeno 256 pixel sul bordo più corto. Le immagini più piccole di 256 pixel sono automaticamente ingrandite dal servizio Visione personalizzata

Caricare e contrassegnare le immagini

È possibile caricare e aggiungere manualmente i tag alle immagini per eseguire il training del classificatore.

  1. Per aggiungere immagini, selezionare Aggiungi immagini seguito da Esplora file locali. Selezionare Open (Apri) per passare all'assegnazione di tag. La selezione di tag viene applicata all'intero gruppo di immagini da caricare, per semplificare il caricamento delle immagini in gruppi separati in base ai tag applicati. È anche possibile modificare i tag per le singole immagini dopo averle caricate.

    Lo screenshot del comando Aggiungi immagini è visualizzato in alto a sinistra e come pulsante in basso al centro.

  2. Per creare un tag, immettere il testo nel campo My Tags (Tag personali) e premere INVIO. Se il tag esiste già, viene visualizzato in un menu a discesa. In un progetto multietichetta è possibile aggiungere più di un tag alle immagini, ma in un progetto multiclasse è possibile aggiungerne solo uno. Per completare il caricamento delle immagini e contrassegnarle, usare il pulsante Upload [number] files (Carica [numero] file).

    Screenshot della pagina di caricamento dell'immagine con un campo per aggiungere tag.

  3. Selezionare Fine al termine del caricamento delle immagini.

    Screenshot della barra di stato che mostra tutte le attività completate.

Per caricare un altro set di immagini, tornare all'inizio di questa sezione e ripetere i passaggi.

Training del classificatore

Per eseguire il training del classificatore, selezionare il pulsante Train (Esegui training). Il classificatore usa tutte le immagini correnti per creare un modello che identifica le qualità visive di ogni tag. Questo processo può richiedere alcuni minuti.

Screenshot del pulsante Training nella parte superiore destra della barra degli strumenti dell'intestazione della pagina Web.

Il processo di training dovrebbe richiedere solo alcuni minuti. Durante questo periodo, vengono visualizzate informazioni sul processo di training nella scheda Prestazioni.

Screenshot della finestra del browser con i dettagli del training nella sezione principale.

Valutare il classificatore

Al termine del training, le prestazioni del modello vengono stimate e visualizzate. Il servizio Visione personalizzata usa le immagini inviate per il training per calcolare la precisione e il richiamo. Precisione e recupero sono due misure diverse dell'efficacia di un classificatore:

  • La precisione indica la frazione delle classificazioni identificate corrette. Se ad esempio il modello identificasse 100 immagini come cani e 99 di essi fossero effettivamente cani, la precisione sarebbe del 99%.
  • Il recupero indica la frazione delle classificazioni effettive identificate correttamente. Se ad esempio fossero effettivamente presenti 100 immagini di mele e il modello ne identificasse 80 come mele, il recupero sarebbe dell'80%.

Screenshot dei risultati del training che mostra la precisione e il richiamo complessivi e la precisione e il richiamo per ogni tag nel classificatore.

Soglia di probabilità

Si noti il dispositivo di scorrimento Soglia di probabilità nel riquadro sinistro della scheda Prestazioni. Si tratta del livello di confidenza che una stima deve avere per essere considerata corretta (ai fini del calcolo della precisione e del richiamo).

Quando si interpretano le chiamate di stima con una soglia di probabilità alta, i risultati restituiti tendono ad avere una precisione elevata a scapito del richiamo, ossia le classificazioni rilevate sono corrette, ma molte rimangono non rilevate. Con una soglia di probabilità bassa avviene l'opposto, ossia viene rilevata la maggior parte delle classificazioni, ma all'interno del set sono presenti più falsi positivi. Tenendo presente questo aspetto, è consigliabile impostare la soglia di probabilità in base alle esigenze specifiche del progetto. In seguito, quando si ricevono i risultati della stima sul lato client, è consigliabile usare lo stesso valore di soglia di probabilità usato qui.

Gestire le iterazioni di training

Ogni volta che si esegue il training del classificatore, si crea una nuova iterazione con le metriche delle prestazioni aggiornate. È possibile visualizzare tutte le iterazioni nel riquadro sinistro della scheda Prestazioni. È presente anche il pulsante Elimina, che consente di eliminare un'iterazione obsoleta. Quando si elimina un'iterazione, vengono eliminate anche tutte le immagini associate in modo univoco a tale iterazione.

Per informazioni su come accedere ai modelli sottoposti a training a livello di codice, vedere Usare l'API Previsioni.

Passaggio successivo

In queste istruzioni di avvio rapido è stato descritto come creare ed eseguire il training di un modello di classificazione di immagini tramite il portale Web di Visione personalizzata. È ora possibile ottenere altre informazioni sul processo iterativo per migliorare il modello.