Path: blob/master/site/pt-br/model_optimization/guide/quantization/post_training.md
25118 views
Quantização pós-treinamento
A quantização pós-treinamento inclui técnicas gerais para reduzir a latência do acelerador de hardware e da CPU, o processamento, a energia e o tamanho do modelo com pouca degradação da exatidão do modelo. Essas técnicas podem ser executadas em um modelo float do TensorFlow já treinado e aplicadas durante a conversão para o TensorFlow Lite. Elas estão disponíveis como opções no conversor do TensorFlow Lite.
Para pular direto para os exemplos completos, veja os seguintes tutoriais:
Quantização de pesos
Os pesos podem ser convertidos em tipos com precisão reduzida, como floats de 16 bits ou números inteiros de 8 bits. Geralmente, recomendamos floats de 16 bits para a aceleração de GPU e números inteiros de 8 bits para a execução da CPU.
Por exemplo, especifique a quantização de pesos de números inteiros de 8 bits desta forma:
Durante a inferência, as partes mais criticamente intensas são computadas com 8 bits em vez de ponto flutuante. Há overhead de desempenho no tempo de inferência, relativo à quantização de ambos os pesos e as ativações abaixo.
Para mais informações, consulte o guia de quantização pós-treinamento do TensorFlow Lite.
Quantização de números inteiros de pesos e ativações
Melhore a latência, o processamento e o uso de energia, além de obter acesso aos aceleradores de hardware somente números inteiros, ao assegurar a quantização de ambos os pesos e as ativações. Isso exige um pequeno dataset representativo.
O modelo resultante ainda aceitará entradas e a saídas float por conveniência.
Para mais informações, consulte o guia de quantização pós-treinamento do TensorFlow Lite.