Real-time collaboration for Jupyter Notebooks, Linux Terminals, LaTeX, VS Code, R IDE, and more,
all in one place. Commercial Alternative to JupyterHub.
Real-time collaboration for Jupyter Notebooks, Linux Terminals, LaTeX, VS Code, R IDE, and more,
all in one place. Commercial Alternative to JupyterHub.
Path: blob/main/transformers_doc/it/preprocessing.ipynb
Views: 2542
Preprocess
Prima di poter usare i dati in un modello, bisogna processarli in un formato accettabile per quest'ultimo. Un modello non comprende il testo grezzo, le immagini o l'audio. Bisogna convertire questi input in numeri e assemblarli all'interno di tensori. In questa esercitazione, tu potrai:
Preprocessare dati testuali con un tokenizer.
Preprocessare immagini o dati audio con un estrattore di caratteristiche.
Preprocessare dati per attività multimodali mediante un processore.
NLP
Lo strumento principale per processare dati testuali è un tokenizer. Un tokenizer inizia separando il testo in tokens secondo una serie di regole. I tokens sono convertiti in numeri, questi vengono utilizzati per costruire i tensori di input del modello. Anche altri input addizionali se richiesti dal modello vengono aggiunti dal tokenizer.
Se stai pensando si utilizzare un modello preaddestrato, è importante utilizzare il tokenizer preaddestrato associato. Questo assicura che il testo sia separato allo stesso modo che nel corpus usato per l'addestramento, e venga usata la stessa mappatura tokens-to-index (solitamente indicato come il vocabolario) come nel preaddestramento.
Iniziamo subito caricando un tokenizer preaddestrato con la classe AutoTokenizer
. Questo scarica il vocabolario usato quando il modello è stato preaddestrato.
Tokenize
Carica un tokenizer preaddestrato con AutoTokenizer.from_pretrained()
:
Poi inserisci le tue frasi nel tokenizer:
Il tokenizer restituisce un dizionario contenente tre oggetti importanti:
input_ids sono gli indici che corrispondono ad ogni token nella frase.
attention_mask indicata se un token deve essere elaborato o no.
token_type_ids identifica a quale sequenza appartiene un token se è presente più di una sequenza.
Si possono decodificare gli input_ids
per farsi restituire l'input originale:
Come si può vedere, il tokenizer aggiunge due token speciali - CLS
e SEP
(classificatore e separatore) - alla frase. Non tutti i modelli hanno bisogno dei token speciali, ma se servono, il tokenizer li aggiungerà automaticamente.
Se ci sono più frasi che vuoi processare, passale come una lista al tokenizer:
Pad
Questo è un argomento importante. Quando processi un insieme di frasi potrebbero non avere tutte la stessa lunghezza. Questo è un problema perchè i tensori, in input del modello, devono avere dimensioni uniformi. Il padding è una strategia per assicurarsi che i tensori siano rettangolari aggiungendo uno speciale padding token alle frasi più corte.
Imposta il parametro padding
a True
per imbottire le frasi più corte nel gruppo in modo che combacino con la massima lunghezza presente:
Nota che il tokenizer aggiunge alle sequenze degli 0
perchè sono troppo corte!
Truncation
L'altra faccia della medaglia è che avolte le sequenze possono essere troppo lunghe per essere gestite dal modello. In questo caso, avrai bisogno di troncare la sequenza per avere una lunghezza minore.
Imposta il parametro truncation
a True
per troncare una sequenza alla massima lunghezza accettata dal modello:
Costruire i tensori
Infine, vuoi che il tokenizer restituisca i tensori prodotti dal modello.
Imposta il parametro return_tensors
su pt
per PyTorch, o tf
per TensorFlow:
Audio
Gli input audio sono processati in modo differente rispetto al testo, ma l'obiettivo rimane lo stesso: creare sequenze numeriche che il modello può capire. Un estrattore di caratteristiche è progettato con lo scopo preciso di estrarre caratteristiche da immagini o dati audio grezzi e convertirli in tensori. Prima di iniziare, installa 🤗 Datasets per caricare un dataset audio e sperimentare:
Carica il dataset MInDS-14 (vedi il 🤗 Datasets tutorial per avere maggiori dettagli su come caricare un dataset):
Accedi al primo elemento della colonna audio
per dare uno sguardo all'input. Richiamando la colonna audio
sarà caricato automaticamente e ricampionato il file audio:
Questo restituisce tre oggetti:
array
è il segnale vocale caricato - e potenzialmente ricampionato - come vettore 1D.path
il percorso del file audio.sampling_rate
si riferisce al numero di campioni del segnale vocale misurati al secondo.
Ricampionamento
Per questo tutorial, puoi usare il modello Wav2Vec2. Come puoi vedere dalla model card, il modello Wav2Vec2 è preaddestrato su un campionamento vocale a 16kHz.È importante che la frequenza di campionamento dei tuoi dati audio combaci con la frequenza di campionamento del dataset usato per preaddestrare il modello. Se la frequenza di campionamento dei tuoi dati non è uguale dovrai ricampionare i tuoi dati audio.
Per esempio, il dataset MInDS-14 ha una frequenza di campionamento di 8000kHz. Utilizzando il modello Wav2Vec2 su questo dataset, alzala a 16kHz:
Usa il metodo di 🤗 Datasets'
cast_column
per alzare la frequenza di campionamento a 16kHz:
Carica il file audio:
Come puoi notare, la sampling_rate
adesso è 16kHz!
Feature extractor
Il prossimo passo è caricare un estrattore di caratteristiche per normalizzare e fare padding sull'input. Quando applichiamo il padding sui dati testuali, uno 0
è aggiunto alle sequenze più brevi. La stessa idea si applica ai dati audio, l'estrattore di caratteristiche per gli audio aggiungerà uno 0
- interpretato come silenzio - agli array
.
Carica l'estrattore delle caratteristiche con AutoFeatureExtractor.from_pretrained()
:
Inserisci l' array
audio nell'estrattore delle caratteristiche. Noi raccomandiamo sempre di aggiungere il parametro sampling_rate
nell'estrattore delle caratteristiche per correggere meglio qualche errore, dovuto ai silenzi, che potrebbe verificarsi.
Pad e truncate
Come per il tokenizer, puoi applicare le operazioni padding o truncation per manipolare sequenze di variabili a lotti. Dai uno sguaro alla lunghezza delle sequenze di questi due campioni audio:
Come puoi vedere, il primo campione ha una sequenza più lunga del secondo. Crea una funzione che preprocesserà il dataset. Specifica una lunghezza massima del campione, e l'estrattore di features si occuperà di riempire o troncare la sequenza per coincidervi:
Applica la funzione ai primi esempi nel dataset:
Adesso guarda la lunghezza dei campioni elaborati:
La lunghezza dei campioni adesso coincide con la massima lunghezza impostata nelle funzione.
Vision
Un estrattore di caratteristiche si può usare anche per processare immagini e per compiti di visione. Ancora una volta, l'obiettivo è convertire l'immagine grezza in un lotto di tensori come input.
Carica il dataset food101 per questa esercitazione. Usa il parametro split
di 🤗 Datasets per caricare solo un piccolo campione dal dataset di addestramento poichè il set di dati è molto grande:
Secondo passo, dai uno sguardo alle immagini usando la caratteristica Image
di 🤗 Datasets:
Feature extractor
Carica l'estrattore di caratteristiche AutoFeatureExtractor.from_pretrained()
:
Data augmentation
Per le attività di visione, è usuale aggiungere alcuni tipi di data augmentation alle immagini come parte del preprocessing. Puoi aggiungere augmentations con qualsiasi libreria che preferisci, ma in questa esercitazione, userai il modulo transforms
di torchvision.
Normalizza l'immagine e usa
Compose
per concatenare alcune trasformazioni -RandomResizedCrop
eColorJitter
- insieme:
Il modello accetta
pixel_values
come input. Questo valore è generato dall'estrattore di caratteristiche. Crea una funzione che generapixel_values
dai transforms:
Poi utilizza 🤗 Datasets
set_transform
per applicare al volo la trasformazione:
Adesso quando accedi all'immagine, puoi notare che l'estrattore di caratteristiche ha aggiunto
pixel_values
allo schema di input:
Di seguito come si vede l'immagine dopo la fase di preprocessing. Come ci si aspetterebbe dalle trasformazioni applicate, l'immagine è stata ritagliata in modo casuale e le proprietà del colore sono diverse.
Multimodal
Per attività multimodali userai una combinazione di tutto quello che hai imparato poco fa e applicherai le tue competenze alla comprensione automatica del parlato (Automatic Speech Recognition - ASR). Questo significa che avrai bisogno di:
Un estrattore delle caratteristiche per processare i dati audio.
Il Tokenizer per processare i testi.
Ritorna sul datasere LJ Speech:
Visto che sei interessato solo alle colonne audio
e text
, elimina tutte le altre:
Adesso guarda le colonne audio
e text
:
Ricorda dalla sezione precedente sull'elaborazione dei dati audio, tu dovresti sempre ricampionare la frequenza di campionamento dei tuoi dati audio per farla coincidere con quella del dataset usato dal modello preaddestrato:
Processor
Un processor combina un estrattore di caratteristiche e un tokenizer. Carica un processor con [`AutoProcessor.from_pretrained]:
Crea una funzione che processi i dati audio in
input_values
, e tokenizza il testo inlabels
. Questi sono i tuoi input per il modello:
Applica la funzione
prepare_dataset
ad un campione:
Nota che il processor ha aggiunto input_values
e labels
. La frequenza di campionamento è stata corretta riducendola a 16kHz.
Fantastico, ora dovresti essere in grado di preelaborare i dati per qualsiasi modalità e persino di combinare modalità diverse! Nella prossima esercitazione, impareremo a mettere a punto un modello sui dati appena pre-elaborati.