Real-time collaboration for Jupyter Notebooks, Linux Terminals, LaTeX, VS Code, R IDE, and more,
all in one place. Commercial Alternative to JupyterHub.
Real-time collaboration for Jupyter Notebooks, Linux Terminals, LaTeX, VS Code, R IDE, and more,
all in one place. Commercial Alternative to JupyterHub.
Path: blob/main/transformers_doc/es/multilingual.ipynb
Views: 2542
Modelos multilingües para inferencia
Existen varios modelos multilingües en 🤗 Transformers y su uso para inferencia difiere de los modelos monolingües. Sin embargo, no todos los usos de los modelos multilingües son diferentes. Algunos modelos, como bert-base-multilingual-uncased, pueden utilizarse igual que un modelo monolingüe. Esta guía te enseñará cómo utilizar modelos multilingües cuyo uso difiere en la inferencia.
XLM
XLM tiene diez checkpoints diferentes de los cuales solo uno es monolingüe. Los nueve checkpoints restantes del modelo pueden dividirse en dos categorías: los checkpoints que utilizan language embeddings y los que no.
XLM con language embeddings
Los siguientes modelos XLM usan language embeddings para especificar el lenguaje utilizado en la inferencia:
xlm-mlm-ende-1024
(Masked language modeling, English-German)xlm-mlm-enfr-1024
(Masked language modeling, English-French)xlm-mlm-enro-1024
(Masked language modeling, English-Romanian)xlm-mlm-xnli15-1024
(Masked language modeling, XNLI languages)xlm-mlm-tlm-xnli15-1024
(Masked language modeling + translation, XNLI languages)xlm-clm-enfr-1024
(Causal language modeling, English-French)xlm-clm-ende-1024
(Causal language modeling, English-German)
Los language embeddings son representados como un tensor de la mismas dimensiones que los input_ids
pasados al modelo. Los valores de estos tensores dependen del idioma utilizado y se identifican mediante los atributos lang2id
y id2lang
del tokenizador.
En este ejemplo, carga el checkpoint xlm-clm-enfr-1024
(Causal language modeling, English-French):
El atributo lang2id
del tokenizador muestra los idiomas de este modelo y sus ids:
A continuación, crea un input de ejemplo:
Establece el id del idioma, por ejemplo "en"
, y utilízalo para definir el language embedding. El language embedding es un tensor lleno de 0
ya que es el id del idioma para inglés. Este tensor debe ser del mismo tamaño que input_ids
.
Ahora puedes pasar los input_ids
y el language embedding al modelo:
El script run_generation.py puede generar texto con language embeddings utilizando los checkpoints xlm-clm
.
XLM sin language embeddings
Los siguientes modelos XLM no requieren language embeddings durante la inferencia:
xlm-mlm-17-1280
(modelado de lenguaje enmascarado, 17 idiomas)xlm-mlm-100-1280
(modelado de lenguaje enmascarado, 100 idiomas)
Estos modelos se utilizan para representaciones genéricas de frases a diferencia de los anteriores checkpoints XLM.
BERT
Los siguientes modelos de BERT pueden utilizarse para tareas multilingües:
bert-base-multilingual-uncased
(modelado de lenguaje enmascarado + predicción de la siguiente oración, 102 idiomas)bert-base-multilingual-cased
(modelado de lenguaje enmascarado + predicción de la siguiente oración, 104 idiomas)
Estos modelos no requieren language embeddings durante la inferencia. Deben identificar la lengua a partir del contexto e inferir en consecuencia.
XLM-RoBERTa
Los siguientes modelos de XLM-RoBERTa pueden utilizarse para tareas multilingües:
xlm-roberta-base
(modelado de lenguaje enmascarado, 100 idiomas)xlm-roberta-large
(Modelado de lenguaje enmascarado, 100 idiomas)
XLM-RoBERTa se entrenó con 2,5 TB de datos CommonCrawl recién creados y depurados en 100 idiomas. Proporciona fuertes ventajas sobre los modelos multilingües publicados anteriormente como mBERT o XLM en tareas posteriores como la clasificación, el etiquetado de secuencias y la respuesta a preguntas.
M2M100
Los siguientes modelos de M2M100 pueden utilizarse para traducción multilingüe:
facebook/m2m100_418M
(traducción)facebook/m2m100_1.2B
(traducción)
En este ejemplo, carga el checkpoint facebook/m2m100_418M
para traducir del chino al inglés. Puedes establecer el idioma de origen en el tokenizador:
Tokeniza el texto:
M2M100 fuerza el id del idioma de destino como el primer token generado para traducir al idioma de destino.. Establece el forced_bos_token_id
a en
en el método generate
para traducir al inglés:
MBart
Los siguientes modelos de MBart pueden utilizarse para traducción multilingüe:
facebook/mbart-large-50-one-to-many-mmt
(traducción automática multilingüe de uno a muchos, 50 idiomas)facebook/mbart-large-50-many-to-many-mmt
(traducción automática multilingüe de muchos a muchos, 50 idiomas)facebook/mbart-large-50-many-to-one-mmt
(traducción automática multilingüe muchos a uno, 50 idiomas)facebook/mbart-large-50
(traducción multilingüe, 50 idiomas)facebook/mbart-large-cc25
En este ejemplo, carga el checkpoint facebook/mbart-large-50-many-to-many-mmt
para traducir del finlandés al inglés. Puedes establecer el idioma de origen en el tokenizador:
Tokeniza el texto:
MBart fuerza el id del idioma de destino como el primer token generado para traducirlo. Establece el forced_bos_token_id
a en
en el método generate
para traducir al inglés:
Si estás usando el checkpoint facebook/mbart-large-50-many-to-one-mmt
no necesitas forzar el id del idioma de destino como el primer token generado, de lo contrario el uso es el mismo.