banner
Centro de notícias
Articulado e proficiente em seus conhecimentos.

Evidência de uma hierarquia de codificação preditiva no cérebro humano ouvindo a fala

May 07, 2023

Nature Human Behavior volume 7, páginas 430–441 (2023) Cite este artigo

79k Acessos

1170 Altmétrico

Detalhes das métricas

Um progresso considerável foi feito recentemente no processamento de linguagem natural: os algoritmos de aprendizado profundo são cada vez mais capazes de gerar, resumir, traduzir e classificar textos. No entanto, esses modelos de linguagem ainda não conseguem corresponder às habilidades de linguagem dos humanos. A teoria da codificação preditiva oferece uma explicação provisória para essa discrepância: enquanto os modelos de linguagem são otimizados para prever palavras próximas, o cérebro humano prediz continuamente uma hierarquia de representações que abrange várias escalas de tempo. Para testar essa hipótese, analisamos os sinais cerebrais de ressonância magnética funcional de 304 participantes ouvindo histórias curtas. Primeiro, confirmamos que as ativações dos modelos de linguagem modernos mapeiam linearmente as respostas do cérebro à fala. Em segundo lugar, mostramos que aprimorar esses algoritmos com previsões que abrangem várias escalas de tempo melhora esse mapeamento cerebral. Por fim, mostramos que essas previsões são organizadas hierarquicamente: os córtices frontoparietais preveem representações de nível superior, de longo alcance e mais contextuais do que os córtices temporais. No geral, esses resultados fortalecem o papel da codificação preditiva hierárquica no processamento da linguagem e ilustram como a sinergia entre neurociência e inteligência artificial pode desvendar as bases computacionais da cognição humana.

Em menos de três anos, o aprendizado profundo fez progressos consideráveis ​​na geração, tradução e conclusão de texto1,2,3,4 graças a algoritmos treinados com um objetivo simples: prever palavras de seu contexto próximo. Notavelmente, foi demonstrado que as ativações desses modelos mapeiam linearmente as respostas do cérebro humano à fala e ao texto5,6,7,8,9,10,11,12. Além disso, esse mapeamento depende principalmente da capacidade dos algoritmos de prever palavras futuras7,8, sugerindo, portanto, que esse objetivo seja suficiente para fazê-los convergir para computações semelhantes ao cérebro.

No entanto, persiste uma lacuna entre humanos e esses algoritmos: apesar de dados de treinamento consideráveis, os modelos de linguagem atuais são desafiados pela longa geração de histórias, resumos e diálogos coerentes e recuperação de informações13,14,15,16,17; eles falham em capturar várias construções sintáticas e propriedades semânticas18,19,20,21,22 e sua compreensão linguística é superficial19,21,22,23,24. Por exemplo, eles tendem a atribuir incorretamente o verbo ao sujeito em frases aninhadas como 'as chaves que o homem segura ESTÃO aqui'20. Da mesma forma, quando a geração de texto é otimizada apenas na previsão da próxima palavra, os modelos de linguagem profunda geram sequências brandas e incoerentes ou ficam presos em loops repetitivos13.

A teoria da codificação preditiva25,26,27 oferece uma possível explicação para essas deficiências; enquanto os modelos de linguagem profunda são principalmente ajustados para prever a próxima palavra, essa estrutura sugere que o cérebro humano faz previsões em várias escalas de tempo e níveis de representações em toda a hierarquia cortical28,29 (Fig. 1a).

Trabalhos anteriores já evidenciaram predições de fala no cérebro por meio da correlação de palavra ou surpresa fonética, ou seja, até que ponto uma palavra ou fone é esperado, com ressonância magnética funcional (fMRI)30,31,32,33, eletroencefalografia34,35, 36, magnetoencefalografia37 e eletrocorticografia11,38. No entanto, essas estimativas surpreendentes derivam de modelos treinados para prever a próxima palavra ou fonema e reduzir sua saída a um único número, ou seja, a probabilidade do próximo token. Consequentemente, a natureza das representações previstas e seu escopo temporal são amplamente desconhecidos.

Neste estudo, abordamos essas questões analisando os sinais cerebrais de 304 indivíduos ouvindo contos enquanto sua atividade cerebral é registrada com fMRI39. Depois de confirmar que os algoritmos de linguagem profunda mapeiam linearmente a atividade cerebral6,8,40, mostramos que aprimorar esses modelos com previsões de longo alcance e vários níveis melhora esse mapeamento cerebral. Criticamente, e de acordo com a teoria da codificação preditiva, nossos resultados revelam uma organização hierárquica das previsões de linguagem no córtex, em que as áreas mais altas preveem as representações mais distantes e de nível mais alto.

 1 would indicate that the model lacks brain-like forecast. The peak of \({{{{\mathcal{F}}}}}^{d}\) indicates how far off in the future the algorithm would need to forecast representations to be most similar to the brain./p> 6) than low-level language areas (for example, k* < 6 in Heschl's gyri/sulci, aSTS; Fig. 3a,b). The difference between regions, while small on average, was highly significant across individuals (for example, between the angular and Heschl's gyri: Δk* = 2.5 ± 0.3, P < 0.001) and observed in both the left and right hemispheres (Fig. 3b)./p>2% gain in the IFG and angular/supramarginal gyri on average, all P < 0.001). On the other hand, auditory areas and lower-level brain regions do not significantly benefit from such a high-level objective (Fig. 5 and Supplementary Fig. 7). These results further strengthen the role of frontoparietal areas in predicting long-range, contextual and high-level representations of language./p> 0.01)./p>