banner
Centro de notícias
Articulado e proficiente em seus conhecimentos.

Sistema de saúde

May 24, 2023

Natureza (2023) Citar este artigo

18k acessos

604 Altmétrica

Detalhes das métricas

Os médicos tomam decisões críticas com restrições de tempo todos os dias. Modelos preditivos clínicos podem ajudar médicos e administradores a tomar decisões ao prever eventos clínicos e operacionais. Os modelos preditivos clínicos baseados em dados estruturados existentes têm uso limitado na prática diária devido à complexidade no processamento de dados, bem como no desenvolvimento e implantação do modelo1,2,3. Aqui mostramos que notas clínicas não estruturadas do prontuário eletrônico podem permitir o treinamento de modelos de linguagem clínica, que podem ser usados ​​como mecanismos preditivos clínicos para todos os fins com desenvolvimento e implantação de baixa resistência. Nossa abordagem aproveita os avanços recentes no processamento de linguagem natural4,5 para treinar um grande modelo de linguagem para linguagem médica (NYUTron) e posteriormente ajustá-lo em uma ampla gama de tarefas preditivas clínicas e operacionais. Avaliamos nossa abordagem em nosso sistema de saúde para cinco dessas tarefas: previsão de readmissão por todas as causas em 30 dias, previsão de mortalidade intra-hospitalar, previsão de índice de comorbidade, previsão de duração da internação e previsão de negação de seguro. Mostramos que o NYUTron tem uma área sob a curva (AUC) de 78,7–94,9%, com uma melhora de 5,36–14,7% na AUC em comparação com os modelos tradicionais. Além disso, demonstramos os benefícios do pré-treinamento com texto clínico, o potencial para aumentar a generalização para diferentes locais por meio de ajuste fino e a implantação completa de nosso sistema em um estudo prospectivo de braço único. Esses resultados mostram o potencial de usar modelos de linguagem clínica na medicina para ler junto com os médicos e fornecer orientação no local de atendimento.

Os médicos tomam decisões difíceis todos os dias, exigindo a integração de uma quantidade enorme de informações. As informações necessárias para tomar essas decisões médicas estão espalhadas por vários registros, por exemplo, o histórico médico de um paciente e os relatórios laboratoriais e de imagem. Quando os médicos realizam seu trabalho, no entanto, todas essas informações são integradas nas anotações escritas pelos médicos para documentar e resumir o atendimento ao paciente.

Os modelos preditivos clínicos são frequentemente derivados de regras que existem há décadas6,7,8,9, bem como de métodos de aprendizado de máquina10,11,12, com a maioria contando com entradas estruturadas extraídas do registro eletrônico de saúde (EHR) ou clínico direto entradas. Essa dependência de entradas estruturadas introduz complexidade no processamento de dados, bem como no desenvolvimento e implantação de modelos, que em parte é responsável pela esmagadora maioria dos algoritmos preditivos médicos sendo treinados, testados e publicados, mas nunca implantados para avaliar seu impacto na realidade. assistência clínica mundial. Isso é freqüentemente referido como o 'problema da última milha' (refs. 1,2,3).

Um dos desenvolvimentos recentes mais empolgantes na pesquisa moderna de inteligência artificial (IA) são os grandes modelos de linguagem (LLMs). Essas enormes redes neurais (com milhões ou até bilhões de parâmetros) demonstraram obter resultados impactantes em uma ampla gama de problemas que dependem da leitura e interpretação da linguagem humana. Vários estilos de LLMs foram desenvolvidos ao longo dos últimos anos, variando amplamente de modelos de codificador (como BERT4) a modelos de decodificador (como GPT3; ref. 5). Nós teorizamos que os LLMs poderiam potencialmente resolver o problema da última milha na análise preditiva médica simplesmente lendo as anotações escritas pelos médicos, acessando imediatamente uma descrição abrangente do estado médico de um paciente para fornecer suporte à decisão no ponto de atendimento em uma ampla gama de tarefas clínicas e operacionais.

Aqui apresentamos nossos resultados de desenvolvimento, avaliação, implantação e avaliação prospectiva do NYUTron, um sistema baseado em LLM que pode se integrar em tempo real com fluxos de trabalho clínicos centrados em anotações e pedidos eletrônicos. Nossa abordagem se baseia no fato de que todos os dados clinicamente úteis e os processos de tomada de decisão dos profissionais médicos podem ser encontrados como texto estruturado ou não estruturado no EHR (por exemplo, como notas, resultados de laboratório e relatórios de estudos). Nossa abordagem aproveita os avanços recentes no processamento de linguagem natural que sugerem que os LLMs auto-supervisionados suficientemente dimensionados podem superar as abordagens fortemente supervisionadas em tarefas preditivas não médicas4,5,13. Investigamos nossa hipótese no NYU Langone Health System ('NYU Langone'), um grande sistema hospitalar multi-borough com uma população diversificada de pacientes em Nova York, com 4 hospitais urbanos e 350 ambulatórios. Avaliamos o NYUTron em uma bateria de cinco tarefas, incluindo três tarefas clínicas e duas operacionais (previsão de readmissão por todas as causas em 30 dias, previsão de mortalidade intra-hospitalar, previsão de índice de comorbidade, previsão de tempo de permanência (LOS) e previsão de negação de seguro) e fornecem uma análise detalhada de nossa tarefa de readmissão de 30 dias para examinar questões de eficiência de dados, generalização, capacidade de implantação e potencial impacto clínico. Ao repensar toda a análise preditiva médica (consulte a seção Informações complementares 1.1 para trabalhos anteriores) como um problema de processamento de linguagem natural, mostramos que é possível usar LLMs como mecanismos universais de previsão para uma ampla gama de tarefas preditivas médicas.

75% quantile). Figure 2c shows that, for LOS prediction, NYUTron had a median one-versus-rest (OVR) AUC of 78.7% ± 0.179%, with a 12.3% improvement from the structured baseline, which used an available subset of ‘Lisbon Portugal’ features18. The task of insurance claim denial prediction was to predict (at admission) whether the insurance claims submitted for an encounter would be accepted or initially denied. Figure 2c shows that, for insurance denial prediction, NYUTron had a median AUC of 87.2% ± 0.246%, with a 14.7% improvement from the structured baseline, which used an available subset of ‘claim form’ features19 such as age and insurance provider. NYUTron is also capable of predicting different types of denials from both admission notes and discharge notes with similar performance (Supplementary Information section 2.2)./p>1 billion parameters), generative models pretrained on large, non-specific datasets. Nonetheless, even relatively small LLMs, such as the ones used in this study, require a substantial amount of compute time for pretraining. Our pretraining used 24 NVIDIA A100 GPUs with 40 GB of VRAM for 3 weeks, and our fine-tuning used 8 A100 GPUs for 6 hours per run. This amount of computation is not commonly accessible to research groups, although we note that it is less than that in similar LLM projects routinely pursued by industry research groups and that our results indicate that massive pretraining may not be necessary to obtain highly performant models. Our results show that high-quality datasets for fine-tuning are more valuable than pretraining, and, on the basis of our experimental results, we recommend that users locally fine-tune an externally pretrained language model when computational ability is limited. Regarding the choice for the externally pretrained model, we further recommend using a model pretrained with a large amount of in-domain clinical text, although we note that large, out-of-domain models can be highly performant, particularly when combined with in-domain fine-tuning. Work with larger decoder-based architectures has also demonstrated a benefit with fine-tuning on medical data or prompt tuning with chain of thought, instructions and related techniques24,25, which further emphasizes the necessity of accounting for the domain shift from general to medical text for LLM work in the medical sciences. Although we have not compared these approaches directly (which would require more medical text or fusion with general-domain text for training a compute-optimal model26), we believe that this could be an interesting future direction for research and that, in the end, approaches combining these different approaches to language modelling may prove to be complementary depending on the use case./p>7 days). We split the dataset into four sets: training, validation, test and temporal test sets. The first three sets were notes from January 2011 to May 2021, with a ratio of 8:1:1, and the temporal test set included notes from June to December 2021./p>5 days). We split the dataset into four sets: training, validation, test and temporal test sets. The first three sets were notes from January 2011 to May 2021, with a ratio of 8:1:1, and the temporal test set included notes from June to December 2021./p>