Egloos | Log-in


당근과 채찍

ADHD와 마시멜로

고등생물체들의 행동양식과 의사결정은 대체로 강화학습Reinforcement learning에 의해 이루어진다.
강화학습은 별게 아니고 보통 "당근과 채찍"이라고 불리는 것을 말한다.

강화학습은 치명적인 단점을 가지고 있는데, 그것은 학습의 최종 귀착점이 최적점이 아닌 매칭조건이라는 것이다.
왜냐면 매칭조건에 도달한 상태에서 행동양식을 바꾸면 기대수익이 감소하기 때문이다.
마치 게임이론에서 내쉬균형에서 한쪽이 전략을 바꾸면 손해를 보는 것과 비슷하다.

따라서 강화학습을 통해 최적점에 도달하기 위해 뇌는 또다른 장치를 가지고 있는데, 그것은 현재의 결정을 내릴 때 과거 사례를 전부 고려하거나, 그 반대로 미래에 얻게될 수익들을 추산해서 고려하는 방법이다.
이 방법을 사용하면 최적점에 도달할 수 있다는 것을 수학적으로 증명할 수 있다고 한다. (난 안해봤음)

근데 사람은 영원히 사는 것이 아니고 생존조건도 시시각각 변하기 때문에
최적점을 선택할 때 실제로 아주 먼 미래나 과거까지 고려한다는 것은 불합리하다.
따라서 어느 정도까지 고려가 될지를 결정하는 변수가 있어서 강화학습의 최적성을 적절히 조절할 수 있다면 편리할 것이다.

뇌과학자들은 이 변수가 세로토닌에 의해 조절된다고 보고 있다.

세로토닌은 우울증과 연관이 깊은데, 우울증에 걸리면 결정을 내리는 것이 아주 어려워한다. 이것은 결정을 내림으로써 생기는 미래의 이득에 대해 첫번째 산정하는 능력이 떨어져있고 두번째 별 관심이 없기 때문에 결정을 회피한다는 것이다.



또 한가지 재밌는 점은 현재가 아닌 시점의 수익을 고려하는 부분인데, 여기서 가상의 상황을 상정하는 것이 필요하다는 것이다.
미래 뿐 아니라 과거에 대해서도 마찬가지인데 "그 때 이런 선택을 했다면 어땠을까"라는 식의 고려가 필요하기 때문이다.
그런데 이렇게 가상과 현실의 밸런스가 깨지는 현상은 많다.
예를 들어 자폐증의 경우 자기가 자신이 아닌 다른 사람일 경우를 가상하는 능력이 현저히 떨어진다.

by 세리자와 | 2006/11/01 01:03 | 그냥 | 트랙백 | 덧글(2)

트랙백 주소 : http://serizawa.egloos.com/tb/1443312
☞ 내 이글루에 이 글과 관련된 글 쓰기 (트랙백 보내기) [도움말]
Commented by 덧말제이 at 2006/11/01 20:26
감사~ ^^
Commented by 세리자와 at 2006/11/02 04:03
감사는요. 원래 매칭조건 글에 쓰려던 건데 귀차니즘 때문에 미루고 있었죠.

:         :

:

비공개 덧글

◀ 이전 페이지          다음 페이지 ▶