banner
Centro de notícias
Articulado e proficiente em seus conhecimentos.

AutoDestilação: um fim

Apr 12, 2023

Os pesquisadores da University of Illinois Urbana-Champaign e do Google apresentam o AutoDistill, uma estrutura de destilação de modelo totalmente automatizada de ponta a ponta que integra a exploração da arquitetura do modelo e a otimização multiobjetivo para a construção de modelos de processamento de linguagem natural pré-treinados com eficiência de hardware.

À medida que os modelos de linguagem baseados em IA continuam aumentando de tamanho, a redução do custo de atendimento tornou-se uma importante área de pesquisa. A destilação de conhecimento surgiu como um método promissor e eficaz para a compactação de modelos, mas os métodos de destilação existentes podem ter dificuldades com o atendimento de modelos nos datacenters massivos de hoje, onde eles enfrentam desafios como lidar com modelos de evolução rápida, considerar o desempenho do serviço e otimizar para vários objetivos .

Para lidar com essas questões, uma equipe de pesquisa da Universidade de Illinois Urbana-Champaign e do Google apresentou o AutoDistill, uma estrutura de destilação de modelo totalmente automatizada de ponta a ponta que integra a exploração da arquitetura do modelo e a otimização multiobjetivo para a construção de hardware pré-treinado eficiente. modelos de processamento de linguagem natural (PLN).

A equipe resume suas principais contribuições como:

O AutoDistill é uma solução de ponta a ponta projetada para gerar modelos de linguagem pré-treinados independentes de tarefas otimizados para configurações de hardware de destino. O AutoDistill considera os requisitos, objetivos e restrições do usuário como entradas que representam os principais componentes a serem considerados, como tarefas de pré-treinamento, espaços de design de modelo, hardware de destino, métricas de avaliação, etc.

O fluxo geral do AutoDistill inclui três estágios principais: exploração do modelo, destilação instantânea e avaliação. A exploração do modelo é usada para procurar melhores modelos compactados, considerando o espaço de design, as métricas de avaliação e as restrições especificadas pelo usuário. A destilação do Flash é então adotada para desenvolver o modelo candidato mais promissor como um modelo de aluno que aprende com os conjuntos de dados de pré-treinamento e com o modelo do professor. Esta etapa também é responsável pela destilação regular com o mesmo modelo de professor, mas diferentes configurações de treinamento. O modelo do aluno destilado em flash é então avaliado nas tarefas de destino e no hardware para precisão de previsão, precisão de previsão da próxima frase e desempenho do hardware. Depois que todas as métricas desejadas são coletadas, as informações são passadas de volta para o estágio de exploração do modelo, onde o mecanismo de busca seleciona o modelo ideal para a próxima iteração.

Notavelmente, o AutoDistill formula a pesquisa de arquitetura de modelo de aluno como um problema de otimização de caixa preta, integrando o algoritmo Bayesian Optimization (BO) e o serviço de otimização de caixa preta baseado em nuvem Vizier (Golovin et al., 2017) no mecanismo de pesquisa para arquitetura de aluno procurar. Os pesquisadores podem obter feedback de hardware válido e preciso medindo o modelo do aluno no hardware de destino e no ambiente de software do datacenter no estágio de avaliação totalmente automatizado e integrado.

O AutoDistill tem várias vantagens sobre os métodos anteriores de pesquisa de arquitetura neural diferenciável (DNAS): 1) Não precisa despender um esforço enorme para treinar uma grande supernet de antemão em tarefas de pré-treinamento de NLP, 2) Pode escalar melhor para lidar com um espaço de design muito maior, e 3) Pode ser facilmente estendido para novos objetivos e novos modelos com diferentes configurações de arquitetura.

A equipe realizou experimentos extensivos para avaliar o AutoDistill. No benchmark Avaliação de Compreensão de Linguagem Geral (GLUE) com nove tarefas downstream de compreensão de linguagem natural, o AutoDistill obteve pontuações médias mais altas do que BERTBASE, DistilBERT, TinyBERT6 e MobileBERT com tamanhos de modelo significativamente menores. Em experimentos com o hardware TPUv4i do Google, os modelos gerados pelo AutoDistill atingiram uma precisão pré-treinada até 3,2% maior e acelerações de até 1,44x na latência em comparação com o MobileBERT.

No geral, o AutoDistill melhora a precisão da previsão e a latência de serviço no hardware de destino, indicando sua promessa e potencial para a construção de modelos NLP pré-treinados com eficiência de hardware de próxima geração.