본문 바로가기
카테고리 없음

Quantum Computing and Reinforcement Learning

by 교생 2022. 8. 10.
반응형

Quantum Computing and Reinforcement Learning

 

 

 

Quantum Computing and Reinforcement Learning

 

 

 


심층 강화 학습은 슈퍼스타의 순간을 맞이하고 있습니다.

더 똑똑한 로봇에게 동력을 공급합니다.
그것은 인간의 신경망을 시뮬레이션합니다.
의사들의 의료진단을 비난하고 Go와 Atari 로 인류 최고의 게이머들을 무너뜨립니다.
인간에게 자연스럽게 전달되는 유연하고 빠른 사고를 실현하기는커녕,
기계 학습에 대한 이 강력한 아이디어는 더 나은 사고 기계의 전조로서 막을 수 없는 것처럼 보입니다.


그들은 큰 장애물이 있다는 것을 제외하고는 달리는 데 오랜 시간이 걸립니다.
이러한 알고리즘의 이면에 있는 개념은 시행착오를 기반으로 하기 때문에,
강화 학습 AI '에이전트'는 올바른 결정에 대한 보상을 받아야만 학습합니다.
복잡한 이슈는 AI 에이전트가 해결책을 배우려고 하다가 실패하는 시간을 빠르게 잃게 할 수 있습니다.




 

 

하지만 한 번에 여러 솔루션을 시도할 수 있다면?




비엔나 대학의 필립 발터 박사가 이끄는 국제 협력은 강화 학습이라는 "고전적인" 개념을 받아들여 양자 스핀을 주었습니다.
그들은 양자 및 일반 고전 컴퓨팅에 모두 의존하는 하이브리드 AI를 설계하고
양자 기복이 문제를 해결하기 위해 여러 가지 다른 방법을 동시에 선별할 수 있음을 보여주었습니다.


그 결과 비양자 대응 피어보다 60% 이상 빠르게 학습한 강화 학습 AI가 등장했습니다.
양자 컴퓨팅을 추가하면 AI 에이전트의 실제 학습 과정이 빨라진다는 것을 보여주는 첫 번째 테스트 중 하나라고 저자는 설명했습니다.


연구에서는 '장난감 문제'에만 도전했지만, 일단 확대되면 하이브리드 AI가 효율적인 양자 인터넷 구축 등 실제 문제에 영향을 미칠 수 있습니다.
이 설정은 미래의 대규모 양자 통신 네트워크에 쉽게 통합될 수 있다고 저자는 썼습니다.





병목 현상





시행착오를 통해 배우는 것은 직관적으로 우리의 뇌로 옵니다.

지도 없이 새로운 복합 캠핑장으로 이동하려고 한다고 가정해 봅시다.
공동화장실에서 야영장으로 돌아오는 것이 목표입니다.
막다른 골목과 헷갈리는 루프가 많습니다.
우리는 도로의 각 갈림길에서 좌회전할지 우회전할지 결정함으로써 그 문제를 해결합니다.
하나는 목표에 가까워지는 것이고, 다른 하나는 원을 그리며 30분 정도 걷는 것입니다.
결국, 우리의 뇌 화학은 올바른 결정을 보상해주기 때문에, 우리는 점차 올바른 길을 배웁니다.

강화 학습 AI 에이전트는 유사한 시행착오 방식으로 작동합니다.
문제가 복잡해질수록 각 시도 횟수와 시간도 복잡해집니다.


"적당히 현실적인 환경에서도, 특정한 상황에 합리적으로 대응하는 데 너무 오랜 시간이 걸릴 수 있습니다,"라고 연구 저자인 박사는 말했습니다.
그는 양자 역학을 활용한 인공지능(AI) 의사 결정 속도를 높이기 위한 노력을 주도한 오스트리아 인스부르크 대학의 한스 브리겔(Hans Briegel)입니다.
그는 "특정 시간만 응대할 수 있도록 해야 한다는 압박이 있다면 에이전트는 상황에 대처하지 못하고 전혀 배우지 못할 수도 있다"고 적었습니다.


강화 학습 속도를 높이기 위한 많은 시도가 있었습니다.
AI 에이전트에 단기 "메모리"를 제공합니다.
그것은 뇌와 매우 유사한 신경학적 컴퓨팅을 사용합니다.
2014년 브리겔 박사와 그의 동료들은 일종의 '퀀텀 브레인'이 학습 후 AI 에이전트의 의사 결정 과정을 이끄는 데 도움이 될 수 있다는 것을 보여주었습니다.
그러나 학습 과정의 속도 향상 자체가 우리의 최선의 노력을 방해합니다.




 

하이브리드 인공지능

 



새로운 연구는 이전에는 지속 가능하지 않았던 경동맥에 직접 적용되었습니다.

그 팀의 핵심 통찰력은 양자 컴퓨팅과 고전 컴퓨팅의 가장 좋은 기능을 모두 활용하는 것이었습니다.
양자 역학을 이용한 전반적인 강화 학습 시스템을 구축하기보다는 좀 더 실용성을 입증할 수 있는 하이브리드 접근 방식으로 전환했습니다.
여기서 AI 에이전트는 새로운 접근 방식인 시행착오의 "시행"을 시도할 때 양자 기묘함을 사용합니다.
그런 다음 시스템은 고전적인 컴퓨터에 바통을 전달하고 그 성능을 바탕으로 AI에 보상 여부를 결정합니다.


양자 "시도" 과정의 중심에는 중첩이라고 불리는 기벽이 있습니다.
우리 컴퓨터는 전자적으로 구동되며 0과 1의 두 가지 상태만을 나타낼 수 있습니다.
양자 역학은 훨씬 더 이상하고, 광자(빛의 입자)는 동시에 0과 1이 되며, 어느 쪽으로 기울어질 확률은 약간 다릅니다.


이러한 불확실한 기묘함은 양자 컴퓨팅이 강력한 이유 중 하나입니다.
새로운 캠핑장을 탐색하기 위한 강화 학습의 예를 살펴봅시다.
고전 세계에서 우리와 AI는 교차로에서 좌회전할지 우회전할지 결정해야 합니다.
그러나 양자 구성에서 AI는 동시에 좌우로 회전할 수 있다.
따라서 홈 베이스로 돌아가는 올바른 경로를 검색할 때 양자 시스템은 여러 경로를 동시에 검색할 수 있다는 장점이 있어 기존의 연속 추적 및 오류보다 훨씬 빠른 것입니다.

브리겔 박사는 "결과적으로 그러한 환경을 중첩하고 탐구할 수 있는 에이전트는 고전적인 에이전트보다 훨씬 더 빨리 배울 수 있을 것"이라고 말했습니다.


이론이 다는 아닙니다.
그들의 아이디어를 시험하기 위해, 그 팀은 나노 포토닉 프로세서라고 불리는 프로그램 가능한 칩으로 관심을 돌렸습니다.
CPU와 같은 컴퓨터 칩이라고 생각하시면 됩니다.
하지만, 그것은 전기보다는 가벼운 입자(광자)를 처리합니다.
이 경량 칩들은 오랫동안 제조되어 왔습니다.
예를 들어, 2017년 MIT 연구팀은 딥 러닝을 강화하기 위해 광학 칩에 완전한 광학 신경망을 구축했습니다.


그 칩들은 그리 이국적이지 않습니다.
나노광학 프로세서는 안경처럼 작동하며, 당신은 그것들을 통해 빛을 변환하는 복잡한 계산을 할 수 있습니다.
안경 케이스는 당신이 더 잘 볼 수 있게 해줍니다.
광학 기반 컴퓨터 칩의 경우 계산이 가능합니다.
이 칩은 전기 케이블 대신 "도파관"을 사용하여 광자를 왕복시키고 상호 작용에 기초한 계산을 수행합니다.


새 하드웨어의 "오류" 또는 "보상" 부분은 기존 컴퓨터에서 가져온 것입니다.
나노광학 프로세서는 전통적인 컴퓨터와 연결되며, 후자는 양자 회로에 피드백, 즉 해결책에 관한 보상을 제공합니다.
이 설정을 통해 실시간으로 속도 향상 학습에 대하여 보다 객관적인 결정을 내릴 수 있다고 연구팀은 설명합니다.


따라서, 하이브리드 강화 학습 에이전트는 양자 컴퓨팅과 고전 컴퓨팅을 번갈아 수행하며, 불안정한 "다중 우주" 땅에서 아이디어를 테스트하고, 기초 고전 물리학 "정상"에서 피드백을 얻습니다.





양자 증강

10,000개의 AI 에이전트와 165개의 실험 데이터를 사용한 시뮬레이션으로 더 복잡한 문제에 도전했을 때 하이브리드 접근 방식은 분명한 진전을 보였습니다.


키워드는 "복잡하다"입니다.
우리는 AI 에이전트가 어쨌든 간단한 문제에 대한 해결책을 찾을 가능성이 더 높을 때 전통적인 컴퓨팅이 매우 잘 작동한다는 것을 발견했습니다.
양자의 장점은 과제가 더 복잡해지거나 어려워질 때 꽃을 피우며 양자 역학은 그것의 중첩된 근육을 완전히 유연하게 만들 수 있습니다.
이 경우 하이브리드 AI는 기존 강화 학습보다 63% 빠르게 학습해 270개의 추측에서 100개로 학습 노력을 줄였습니다.


과학자들이 강화 학습 속도에 대한 양자적 부양을 보여줬기 때문에 차세대 컴퓨팅 경쟁은 더욱 빛을 발하고 있습니다.
장거리 광 기반 통신에 필요한 광자 하드웨어는 신호 품질을 향상시키면서 빠르게 줄어들고 있습니다.
저자들은 부분 양자 설정이 원활한 인터넷에 만연한 "네트워크 라우팅 문제와 같은 빈번한 검색 요구 문제"에 특히 유용할 수 있다고 썼습니다.
강화 학습은 양자화를 통해 현재 가능한 것보다 훨씬 더 복잡한 문제(실제 문제)를 해결할 수 있습니다.

"우리는 양자 인공지능의 잠재력을 이제 막 이해하기 시작했습니다," 라고 주요 저자 발터가 말했습니다.

반응형

댓글