Real-time collaboration for Jupyter Notebooks, Linux Terminals, LaTeX, VS Code, R IDE, and more,
all in one place. Commercial Alternative to JupyterHub.
Real-time collaboration for Jupyter Notebooks, Linux Terminals, LaTeX, VS Code, R IDE, and more,
all in one place. Commercial Alternative to JupyterHub.
Path: blob/main/transformers_doc/es/preprocessing.ipynb
Views: 2542
Preprocesamiento
Antes de que puedas utilizar los datos en un modelo, debes procesarlos en un formato aceptable para el modelo. Un modelo no entiende el texto en bruto, las imágenes o el audio. Estas entradas necesitan ser convertidas en números y ensambladas en tensores. En este tutorial, podrás:
Preprocesar los datos textuales con un tokenizador.
Preprocesar datos de imagen o audio con un extractor de características.
Preprocesar datos para una tarea multimodal con un procesador.
NLP
La principal herramienta para procesar datos textuales es un tokenizador. Un tokenizador comienza dividiendo el texto en tokens según un conjunto de reglas. Los tokens se convierten en números, que se utilizan para construir tensores como entrada a un modelo. El tokenizador también añade cualquier entrada adicional que requiera el modelo.
Si tienes previsto utilizar un modelo pre-entrenado, es importante que utilices el tokenizador pre-entrenado asociado. Esto te asegura que el texto se divide de la misma manera que el corpus de pre-entrenamiento y utiliza el mismo índice de tokens correspondiente (usualmente referido como el vocab) durante el pre-entrenamiento.
Comienza rápidamente cargando un tokenizador pre-entrenado con la clase AutoTokenizer
. Esto descarga el vocab utilizado cuando un modelo es pre-entrenado.
Tokenizar
Carga un tokenizador pre-entrenado con AutoTokenizer.from_pretrained()
:
A continuación, pasa tu frase al tokenizador:
El tokenizador devuelve un diccionario con tres ítems importantes:
input_ids son los índices correspondientes a cada token de la frase.
attention_mask indica si un token debe ser atendido o no.
token_type_ids identifica a qué secuencia pertenece un token cuando hay más de una secuencia.
Tu puedes decodificar el input_ids
para devolver la entrada original:
Como puedes ver, el tokenizador ha añadido dos tokens especiales - CLS
y SEP
(clasificador y separador) - a la frase. No todos los modelos necesitan tokens especiales, pero si lo llegas a necesitar, el tokenizador los añadirá automáticamente.
Si hay varias frases que quieres preprocesar, pasa las frases como una lista al tokenizador:
Pad
Esto nos lleva a un tema importante. Cuando se procesa un batch de frases, no siempre tienen la misma longitud. Esto es un problema porque los tensores que se introducen en el modelo deben tener una forma uniforme. El pad es una estrategia para asegurar que los tensores sean rectangulares añadiendo un "padding token" especial a las oraciones con menos tokens.
Establece el parámetro padding
en True
aplicando el pad a las secuencias más cortas del batch para que coincidan con la secuencia más larga:
Observa que el tokenizador ha aplicado el pad a la primera y la tercera frase con un "0" porque son más cortas.
Truncamiento
En el otro extremo del espectro, a veces una secuencia puede ser demasiado larga para un modelo. En este caso, tendrás que truncar la secuencia a una longitud más corta.
Establece el parámetro truncation
a True
para truncar una secuencia a la longitud máxima aceptada por el modelo:
Construye tensores
Finalmente, si quieres que el tokenizador devuelva los tensores reales que se introducen en el modelo.
Establece el parámetro return_tensors
como pt
para PyTorch, o tf
para TensorFlow:
Audio
Las entradas de audio se preprocesan de forma diferente a las entradas textuales, pero el objetivo final es el mismo: crear secuencias numéricas que el modelo pueda entender. Un extractor de características (o feature extractor en inglés) está diseñado para extraer características de datos provenientes de imágenes o audio sin procesar y convertirlos en tensores. Antes de empezar, instala 🤗 Datasets para cargar un dataset de audio para experimentar:
Carga la tarea de detección de palabras clave del benchmark SUPERB (consulta el tutorial 🤗 Dataset para que obtengas más detalles sobre cómo cargar un dataset):
Accede al primer elemento de la columna audio
para echar un vistazo a la entrada. Al llamar a la columna audio
se cargará y volverá a muestrear automáticamente el archivo de audio:
Esto devuelve tres elementos:
array
es la señal de voz cargada - y potencialmente remuestreada - como un array 1D.path
apunta a la ubicación del archivo de audio.sampling_rate
se refiere a cuántos puntos de datos de la señal de voz se miden por segundo.
Resample
Para este tutorial, se utilizará el modelo Wav2Vec2. Como puedes ver en la model card, el modelo Wav2Vec2 está pre-entrenado en audio de voz muestreado a 16kHz. Es importante que la tasa de muestreo de tus datos de audio coincida con la tasa de muestreo del dataset utilizado para pre-entrenar el modelo. Si la tasa de muestreo de tus datos no es la misma, deberás volver a muestrear tus datos de audio.
Por ejemplo, carga el dataset LJ Speech que tiene una tasa de muestreo de 22050kHz. Para utilizar el modelo Wav2Vec2 con este dataset, reduce la tasa de muestreo a 16kHz:
Usa el método 🤗 Datasets'
cast_column
para reducir la tasa de muestreo a 16kHz:
Carga el archivo de audio:
Como puedes ver, el sampling_rate
se ha reducido a 16kHz. Ahora que sabes cómo funciona el resampling, volvamos a nuestro ejemplo anterior con el dataset SUPERB.
Extractor de características
El siguiente paso es cargar un extractor de características para normalizar y aplicar el pad a la entrada. Cuando se aplica padding a los datos textuales, se añade un "0" para las secuencias más cortas. La misma idea se aplica a los datos de audio y el extractor de características de audio añadirá un "0" - interpretado como silencio - al "array".
Carga el extractor de características con AutoFeatureExtractor.from_pretrained()
:
Pasa el array
de audio al extractor de características. También te recomendamos añadir el argumento sampling_rate
en el extractor de características para poder depurar mejor los errores silenciosos que puedan producirse.
Pad y truncamiento
Al igual que el tokenizador, puedes aplicar padding o truncamiento para manejar secuencias variables en un batch. Fíjate en la longitud de la secuencia de estas dos muestras de audio:
Como puedes ver, el sampling_rate
se ha reducido a 16kHz.
Aplica la función a los primeros ejemplos del dataset:
Ahora echa un vistazo a las longitudes de las muestras procesadas:
Las longitudes de las dos primeras muestras coinciden ahora con la longitud máxima especificada.
Visión
También se utiliza un extractor de características para procesar imágenes para tareas de visión por computadora. Una vez más, el objetivo es convertir la imagen en bruto en un batch de tensores como entrada.
Vamos a cargar el dataset food101 para este tutorial. Usa el parámetro 🤗 Datasets split
para cargar solo una pequeña muestra de la división de entrenamiento ya que el dataset es bastante grande:
A continuación, observa la imagen con la función 🤗 Datasets Image
:
Extractor de características
Carga el extractor de características con AutoFeatureExtractor.from_pretrained()
:
Aumento de Datos
Para las tareas de visión por computadora es común añadir algún tipo de aumento de datos (o data augmentation) a las imágenes como parte del preprocesamiento. Puedes añadir el método de aumento de datos con cualquier librería que quieras, pero en este tutorial utilizarás el módulo transforms
de torchvision.
Normaliza la imagen y utiliza
Compose
para encadenar algunas transformaciones -RandomResizedCrop
yColorJitter
- juntas:
El modelo acepta
pixel_values
como entrada. Este valor es generado por el extractor de características. Crea una función que generepixel_values
a partir de las transformaciones:
A continuación, utiliza 🤗 Datasets
set_transform
para aplicar las transformaciones sobre la marcha:
Ahora, cuando accedes a la imagen, observarás que el extractor de características ha añadido a la entrada del modelo
pixel_values
:
Este es el aspecto de la imagen después de preprocesarla. Como era de esperar por las transformaciones aplicadas, la imagen ha sido recortada aleatoriamente y sus propiedades de color son diferentes.
Multimodal
Para las tareas multimodales utilizarás una combinación de todo lo que has aprendido hasta ahora y aplicarás tus habilidades a una tarea de reconocimiento automático de voz (ASR). Esto significa que necesitarás un:
Extractor de características para preprocesar los datos de audio.
Un tokenizador para procesar el texto.
Volvamos al dataset LJ Speech:
Suponiendo que te interesan principalmente las columnas audio
y texto
, elimina las demás columnas:
Ahora echa un vistazo a las columnas audio
y texto
:
Recuerda la sección anterior sobre el procesamiento de datos de audio, siempre debes volver a muestrear la tasa de muestreo de tus datos de audio para que coincida con la tasa de muestreo del dataset utilizado para preentrenar un modelo:
Processor
Un processor combina un extractor de características y un tokenizador. Cargue un procesador con [`AutoProcessor.from_pretrained]:
Crea una función para procesar los datos de audio en
input_values
, y tokeniza el texto enlabels
. Estas son las entradas del modelo:
Aplica la función
prepare_dataset
a una muestra:
Observa que el método processor ha añadido input_values
y labels
. La tasa de muestreo también se ha reducido correctamente a 16kHz.
Genial, ahora deberías ser capaz de preprocesar datos para cualquier modalidad e incluso combinar diferentes modalidades. En el siguiente tutorial, aprenderás aplicar fine tuning a un modelo en tus datos recién preprocesados.
Todo lo que siempre quisiste saber sobre el padding y el truncamiento
Hemos visto los comandos que funcionarán para la mayoría de los casos (hacer pad a tu batch teniendo en cuenta la longitud de la frase máxima y truncar a la longitud máxima que el modelo puede aceptar). Sin embargo, la API admite más estrategias si las necesitas. Los tres argumentos que necesitas conocer para ello son padding
, truncation
y max_length
.
padding
controla el aplicarme padding al texto. Puede ser un booleano o una cadena que debe ser:True
o'longest'
para aplicar el pad hasta la secuencia más larga del batch (no apliques el padding si sólo le proporcionas una sola secuencia).'max_length'
para aplicar el pad hasta la longitud especificada por el argumentomax_length
o la longitud máxima aceptada por el modelo si no le proporcionaslongitud_máxima
(longitud_máxima=None
). Si sólo le proporcionas una única secuencia se le aplicará el padding.False
o'do_not_pad'
para no aplicar pad a las secuencias. Como hemos visto antes, este es el comportamiento por defecto.
truncation
controla el truncamiento. Puede ser un booleano o una string que debe ser:True
o'longest_first'
truncan hasta la longitud máxima especificada por el argumentomax_length
o la longitud máxima aceptada por el modelo si no le proporcionasmax_length
(max_length=None
). Esto truncará token por token, eliminando un token de la secuencia más larga del par hasta alcanzar la longitud adecuada.'only_second'
trunca hasta la longitud máxima especificada por el argumentomax_length
o la longitud máxima aceptada por el modelo si no le proporcionasmax_length
(max_length=None
). Esto sólo truncará la segunda frase de un par si le proporcionas un par de secuencias (o un batch de pares de secuencias).'only_first'
trunca hasta la longitud máxima especificada por el argumentomax_length
o la longitud máxima aceptada por el modelo si no se proporcionamax_length
(max_length=None
). Esto sólo truncará la primera frase de un par si se proporciona un par de secuencias (o un lote de pares de secuencias).False
o'do_not_truncate'
para no truncar las secuencias. Como hemos visto antes, este es el comportamiento por defecto.
max_length
para controlar la longitud del padding/truncamiento. Puede ser un número entero oNone
, en cuyo caso será por defecto la longitud máxima que el modelo puede aceptar. Si el modelo no tiene una longitud máxima de entrada específica, el padding/truncamiento alongitud_máxima
se desactiva.
A continuación te mostramos en una tabla que resume la forma recomendada de configurar el padding y el truncamiento. Si utilizas un par de secuencias de entrada en algunos de los siguientes ejemplos, puedes sustituir truncation=True
por una STRATEGY
seleccionada en ['only_first', 'only_second', 'longest_first']
, es decir, truncation='only_second'
o truncation= 'longest_first'
para controlar cómo se truncan ambas secuencias del par como se ha detallado anteriormente.
Truncation | Padding | Instrucciones |
---|---|---|
no truncation | no padding | tokenizer(batch_sentences) |
padding secuencia max del batch | tokenizer(batch_sentences, padding=True) or | |
tokenizer(batch_sentences, padding='longest') | ||
padding long max de input model | tokenizer(batch_sentences, padding='max_length') | |
padding a una long especifica | tokenizer(batch_sentences, padding='max_length', max_length=42) | |
truncation long max del input model | no padding | tokenizer(batch_sentences, truncation=True) or |
tokenizer(batch_sentences, truncation=STRATEGY) | ||
padding secuencia max del batch | tokenizer(batch_sentences, padding=True, truncation=True) or | |
tokenizer(batch_sentences, padding=True, truncation=STRATEGY) | ||
padding long max de input model | tokenizer(batch_sentences, padding='max_length', truncation=True) or | |
tokenizer(batch_sentences, padding='max_length', truncation=STRATEGY) | ||
padding a una long especifica | Not possible | |
truncation a una long especifica | no padding | tokenizer(batch_sentences, truncation=True, max_length=42) or |
tokenizer(batch_sentences, truncation=STRATEGY, max_length=42) | ||
padding secuencia max del batch | tokenizer(batch_sentences, padding=True, truncation=True, max_length=42) or | |
tokenizer(batch_sentences, padding=True, truncation=STRATEGY, max_length=42) | ||
padding long max de input model | Not possible | |
padding a una long especifica | tokenizer(batch_sentences, padding='max_length', truncation=True, max_length=42) or | |
tokenizer(batch_sentences, padding='max_length', truncation=STRATEGY, max_length=42) |