Um transformador de visão fundamental melhora o desempenho de diagnóstico para eletrocardiogramas

npj Digital Medicine volume 6, Número do artigo: 108 (2023) Cite este artigo

76 Altmétrica

Detalhes das métricas

O eletrocardiograma (ECG) é uma modalidade diagnóstica onipresente. As redes neurais convolucionais (CNNs) aplicadas à análise de ECG requerem grandes tamanhos de amostra, e as abordagens de aprendizado de transferência para problemas biomédicos podem resultar em desempenho abaixo do ideal quando o pré-treinamento é feito em imagens naturais. Aproveitamos a modelagem de imagem mascarada para criar um modelo de transformador baseado em visão, HeartBEiT, para análise de forma de onda de eletrocardiograma. Nós pré-treinamos este modelo em 8,5 milhões de ECGs e então comparamos desempenho versus arquiteturas CNN padrão para diagnóstico de cardiomiopatia hipertrófica, fração de ejeção ventricular esquerda baixa e infarto do miocárdio com elevação ST usando diferentes tamanhos de amostra de treinamento e conjuntos de dados de validação independentes. Descobrimos que o HeartBEiT tem desempenho significativamente maior em tamanhos de amostra menores em comparação com outros modelos. Também descobrimos que o HeartBEiT melhora a explicabilidade do diagnóstico, destacando regiões biologicamente relevantes do EKG versus CNNs padrão. Modelos de transformadores pré-treinados específicos de domínio podem exceder o desempenho de classificação de modelos treinados em imagens naturais, especialmente em regimes de dados muito baixos. A combinação da arquitetura e tal pré-treinamento permite uma explicação mais precisa e granular das previsões do modelo.

O eletrocardiograma (ECG) é um registro no nível da superfície do corpo da atividade elétrica dentro do coração. Devido ao seu baixo custo, não invasivo e ampla aplicabilidade para doenças cardíacas, o ECG é uma investigação onipresente e mais de 100 milhões de ECGs são realizados a cada ano apenas nos Estados Unidos1 em vários ambientes de assistência médica. No entanto, o escopo do ECG é limitado, pois os médicos não conseguem identificar consistentemente padrões representativos de doenças - especialmente para condições que não possuem critérios diagnósticos estabelecidos ou nos casos em que tais padrões podem ser muito sutis ou caóticos para a interpretação humana.

O aprendizado profundo foi aplicado aos dados de ECG para vários casos de uso de diagnóstico e prognóstico2,3,4,5,6. A grande maioria deste trabalho foi construída sobre Convolutional Neural Networks (CNNs)7. Como outras redes neurais, as CNNs são construções de alta variância8 e requerem grandes quantidades de dados para evitar o overfitting9. As CNNs também devem ser construídas especificamente para acomodar a dimensionalidade dos dados recebidos e têm sido usadas para interpretar ECGs como formas de onda 1D e imagens 2D10.

Nesse contexto, a interpretação de ECGs como imagens 2D apresenta uma vantagem devido aos modelos pré-treinados amplamente disponíveis, que muitas vezes servem como pontos de partida para tarefas de modelagem em conjuntos de dados menores11. Essa técnica é descrita como aprendizado de transferência, em que um modelo treinado em um conjunto de dados maior e possivelmente não relacionado é ajustado em um conjunto de dados menor que é relevante para um problema12. O aprendizado de transferência é especialmente útil na área da saúde, pois os conjuntos de dados são limitados em tamanho devido a coortes limitadas de pacientes, raridade de resultados de interesse e custos associados à geração de rótulos úteis. Como resultado, modelos de visão treinados primeiro de maneira supervisionada em imagens naturais13 geralmente formam a base de modelos usados em ambientes de assistência médica. Infelizmente, o aprendizado de transferência com tais imagens naturais não é uma solução universal e é conhecido por produzir resultados abaixo do ideal quando existem diferenças substanciais nos conjuntos de dados de pré-treinamento e ajuste fino14.

As redes neurais baseadas em transformadores utilizam o mecanismo de atenção15 para estabelecer e definir relacionamentos entre unidades discretas de dados de entrada conhecidos como tokens16. Um benefício significativo que os transformadores permitem é o aprendizado não supervisionado de grandes corpos de dados não rotulados para aprender relacionamentos entre tokens e, em seguida, utilizar essas informações para outras tarefas downstream16. Devido à facilidade com que o texto não estruturado pode ser dividido em tokens, os transformadores têm sido tremendamente bem-sucedidos nas tarefas de Processamento de Linguagem Natural (NLP)17,18. Trabalhos recentes estenderam a funcionalidade de tais modelos para tarefas baseadas em visão, levando ao advento do transformador de visão16,19.