17-01-2020 4:37 am Published by Nederland.ai Leave your thoughts

Desenvolvimentos em inteligência artificial geralmente se inspiram em como as pessoas pensam, mas agora a IA reverteu os papéis de nos ensinar sobre como os cérebros aprendem.

Will Dabney, da empresa de tecnologia DeepMind, em Londres, e seus colegas descobriram que um desenvolvimento recente no aprendizado de máquina, chamado aprimoramento de distribuição, também fornece uma nova explicação de como funcionam os caminhos de recompensa no cérebro. Essas vias determinam nossa resposta a eventos agradáveis e são mediadas por neurônios que liberam a dopamina química no cérebro.

“A dopamina no cérebro é um tipo de sinal de surpresa”, diz Dabney. “Se for melhor do que o esperado, mais dopamina será liberada”.

Pensava-se anteriormente que todos esses neurônios da dopamina reagiam de forma idêntica. “Um tipo de coral, mas onde todo mundo canta exatamente a mesma nota”, diz Dabney.

Mas a equipe descobriu que os neurônios individuais da dopamina realmente parecem variar – cada um deles é sintonizado em um nível diferente de otimismo ou pessimismo.

“Todos eles dão sinais em diferentes níveis de surpresa”, diz Dabney. “Mais como um coral que canta todas as notas diferentes e se harmoniza.”

A descoberta foi inspirada em um processo conhecido como aprendizado de aprimoramento de distribuição, que é uma das técnicas usadas pela IA para dominar jogos como Go e Starcraft II.

Na sua forma mais simples, o aprendizado por reforço é a ideia de que uma recompensa reforça o comportamento que levou à aquisição. Requer uma compreensão de como uma promoção atual leva a uma recompensa futura. Por exemplo, um cão pode aprender o comando “sentar” porque é recompensado com um petisco quando o faz.

Anteriormente, os modelos de aprendizado por reforço em IA e neurociências focavam no aprendizado para prever uma recompensa futura “média”. “Mas isso não reflete a realidade como a vivenciamos”, diz Dabney.

“Por exemplo, se alguém joga na loteria, ele espera ganhar ou perder, mas ele não espera que seja na metade do resultado médio que não necessariamente ocorre”, diz ele.

Se o futuro é incerto, os possíveis resultados podem ser representados como uma distribuição de probabilidade: alguns são positivos, outros negativos. As IAs que usam algoritmos de aprendizado que aprimoram a distribuição são capazes de prever todo o espectro de possíveis recompensas.

Para testar se as vias de recompensa da dopamina no cérebro também funcionam através de uma distribuição, a equipe registrou respostas de neurônios dopaminérgicos individuais em ratos. Os ratos foram treinados para realizar uma tarefa e receberam recompensas de tamanhos variados e imprevisíveis.

Os pesquisadores descobriram que diferentes células de dopamina mostraram níveis diferentes de surpresa.

“Vincular recompensas a incentivos ou ações específicas é crucial para a sobrevivência”, diz Raul Vicente, da Universidade de Tartu, na Estônia. “O cérebro não pode se dar ao luxo de jogar fora informações valiosas sobre recompensas.

“O estudo está amplamente alinhado com a visão atual de que, para funcionar com eficiência, o cérebro deve representar não apenas o valor médio de uma variável, mas também a frequência com que uma variável assume valores diferentes”, diz Vicente. “É um bom exemplo de como os algoritmos de cálculo podem nos guiar no que procurar nas respostas neurais.

Vicente acrescenta, no entanto, mais pesquisas são necessárias para mostrar se os resultados se aplicam a outros tipos ou regiões do cérebro.

Fonte: https://www.newscientist.com/article/2230327-deepmind-found-an-ai-learning-technique-also-works-in-human-brains/#ixzz6BG8VXx9n

Tags: , , , , , ,

Deixe uma resposta

O seu endereço de email não será publicado. Campos obrigatórios marcados com *

four + 11 =

The maximum upload file size: 2 MB. You can upload: image, audio, video, document, spreadsheet, interactive, text, archive, code, other. Links to YouTube, Facebook, Twitter and other services inserted in the comment text will be automatically embedded. Drop file here