Login     Mobile II
Hint Food 맛과향 Diet Health 불량지식 자연과학 My Book 유튜브 Frims 원 료 제 품 Update Site

네트워크생태계참여

단백질구조 : 알파폴드,  폴드잇(FoldIt)

- 지식 생태계
- 플랫폼 : 모임의 장

구글 딥마인드AI, 인간 단백질 2만개 구조 모두 예측했다
2021.07.23 18:32

구글 딥마인드가 단백질 구조 예측 인공지능(AI) ‘알파폴드2’로 36만 5000개 이상 단백질의 3차원 구조를 정확히 예측하는 데 성공하고 이를 공개했다. 인간 게놈에 기록된 단백질 2만여 개 중 98.5%를 포함해 쥐, 초파리, 대장균 등 생물학 연구에 주로 쓰이는 20종 생물의 단백질이 포함됐다. 연구팀은 올해 내로 지금까지 알려진 단백질의 절반 이상인 1억 3000만 개의 단백질로 목록을 확장할 계획이라고 밝혔다.
데마스 허사비스 딥마인드 최고경영자(CEO) 연구팀은 이같은 연구결과를 22일 국제학술지 ‘네이처’에 발표했다. 앞서 딥마인드는 15일 알파폴드2의 세부 내용과 코드를 네이처에 발표한 데 이어 이날은 알파폴드2의 첫 성과를 누구나 쓸 수 있도록 공개한 것이다. 딥마인드는 유럽 분자생물학연구소(EMBL)와 협력해 알파폴드의 단백질 구조 예측 결과를 데이터베이스화해 공개한다는 협약도 이날 발표했다.

단백질은 모든 생명 현상에 관여한다. 단백질은 유전자 정보에 따라 20종류의 아미노산이 긴 사슬로 수백 개 이상 이어져 만들어진다. 이 아미노산들이 분자들 간 힘에 따라 상호작용하면서 고유의 3차원 단백질 구조를 만든다. 이를 단백질 접힘이라고 한다. 단백질 구조는 단백질의 기능과 직결되기 때문에 구조를 알아내면 약물의 영향을 평가하거나 효소의 특성을 파악하는 등 단백질의 특징을 예측할 수 있다.
단백질 접힘은 워낙 변수가 많아 아미노산만으로 입체 구조를 예측하기 어려웠다. 과학자들은 X선 결정학 등을 이용해 단백질 구조를 직접 분석해 10만 여 종의 구조를 해독했다. 그러나 한 번 분석에 오랜 시간이 걸리는 어려움이 있어 그 수가 크게 늘지는 못했다. 때문에 과학자들은 실험 대신 컴퓨터 계산으로 단백질의 구조를 예측해 오는 연구를 수행해 왔다. 단백질들끼리의 상호작용을 일일이 계산해 단백질의 최종 구조를 찾아내는 방식이다.
그러던 중 딥마인드가 AI로 판세를 바꿨다. AI는 이미 알려진 단백질 구조와 아미노산 배열을 학습하기만 하면 새로운 아미노산 배열에서 구조를 예측해낼 수 있게 된다. 알파폴드 2는 지난해 12월 단백질 구조 예측 학술대회(CASP)에서 92.4점을 받아 최고점을 기록했다. 과학자들이 예측한 기존 단백질 구조와 90% 이상 일치했다. 2년 전 CASP 최고점이 60점이었던 것과 비교하면 엄청난 성과라는 평가를 받았다.

딥마인드 제공
CASP 대회에서 최고점을 받은 단백질 구조 예측의 점수를 나열했다. 알파폴드가 등장한 2018년부터 구조예측 점수가 급격히 상승하기 시작한다. 딥마인드 제공
알파폴드2는 CASP에서는 길게는 수일 정도에 단백질 하나의 구조를 예측할 수 있었다. 이후 그 구조가 정확히 확인된 1만 7000여 개의 정보를 학습하고 효율을 높이면서 개선된 이번 버전에서는 수 분에서 수 시간이면 단백질 구조 예측이 가능해졌다. 이를 통해 딥마인드는 인간 게놈의 모든 단백질 구조와 20개 유기체의 단백질 구조를 예측하기 시작했다.
알파폴드2는 인간 단백질의 98.5%를 예측하면서도 개별 아미노산의 위치 예측도가 최소 58%에 달할 만큼 충분히 우수한 것으로 나타났다. 단백질의 구조는 본질적으로 불완전한 영역이 많아 이 정도 정확도로도 충분히 약물 설계 등에 활용할 만하다는 설명이다. 존 점퍼 알파폴드 수석연구원은 “많은 단백질은 용액 속에서 고정된 구조를 갖고 있지 않다”고 말했다.

알파폴드2가 예측한 단백질은 이미 다양한 연구에 쓰이고 있다. 마르셀로 소사 미국 콜로라도대 생화학과 교수 연구팀은 알파폴드2를 이용해 박테리아가 콜리스틴이라는 항생제를 피하기 위해 사용하는 단백질의 모델을 만들어 항생제 내성을 연구하고 있다고 밝혔다. 아담 프로스트 미국 샌프란시스코 캘리포니아대 생화학 및 생물리학부 교수팀은 알파폴드2와 극저온전자현미경의 결과를 결합해 신종 코로나바이러스 감염증(COVID-19·코로나19) 바이러스가 인체에 침입할 때 이용하는 Nsp2 단백질 구조를 밝혀낸 연구결과를 5월 논문 사전공개사이트 ‘메드아카이브’에 발표했다.
연구팀은 올해 말까지 지금까지 알려진 단백질의 개수인 2억 여개의 절반 이상인 1억 3000만 개로 늘릴 것이라고 밝혔다. 단백질 구조가 확인되고 예측이 맞다고 판단되면 데이터베이스에 업데이트 한다는 계획이다. 에디트 허드 EMBL 사무총장은 "알파폴드는 과학계에서 구축한 공개 데이터를 사용해 훈련됐으므로 예측 또한 공개되는게 합리적"이라며 "알파폴드 데이터베이스는 개방형 과학 선순환의 완벽한 예"라고 말했다.
딥마인드의 알파폴드 공개 이후 다양한 단백질 구조 예측 AI 프로그램이 개발되면서 단백질 구조 분석을 이용한 생물학 연구는 새 전기를 맞고 있다. 단백질 구조 예측 권위자인 데이비드 베이커 미국 워싱턴대 교수와 백민경 박사후연구원 연구팀은 15일 국제학술지 ‘사이언스’에 단백질 간의 결합 형태까지 예측할 수 있는 AI 프로그램 ‘로제타폴드’를 공개했다. 단백질은 다른 단백질들과 결합하며 생체의 기능을 만들어내기 때문에 결합 형태도 중요한 요소 중 하나다.

로제타폴드는 미지의 단백질이 주어지면 단백질 데이터베이스에서 비슷한 아미노산 서열을 찾는 방식이다. 동시에 다른 AI가 단백질 내부에서 아미노산들이 연결되는 형태를 예측하고, 또 다른 AI가 입체 구조를 제시한다. 이 과정을 반복해 AI가 내놓은 결과를 더욱 정확하게 가다듬는다. 알파폴드2보다 정확성은 떨어지지만 결합 형태 예측에서는 더 낫다는 평가를 받는다.

베이커 교수는 15일 로제타폴드를 발표하기 전 6월에 로제타폴드 연구결과를 논문 사전출판 사이트에 공개하면서 소스코드도 코드 공유 플랫폼 ‘깃허브’에 공개했다. 이후 전 세계 140여 연구 그룹이 로제타폴드를 내려받아 활용했다. 알파폴드2는 딥마인드 측에서 소스코드를 공개하지 않아 검증이 불가능하다는 지적을 받아 왔다.

그러다 15일 로제타폴드의 공개 날에 맞춰 알파폴드2도 코드를 공개했다. 네이처는 사이언스 논문과 발표 시간을 맞추기 위해 딥마인드 논문 발표를 서둘러 진행한 것으로 알려졌다. 백 박사후연구원은 “우리 연구가 딥마인드의 성과에 기반을 둬 우리보다 뒤에 논문이 나오지 않은 것은 적절하다”고 평가했다.

전문가들은 AI의 단백질 예측이 생물학 연구에 새 전기를 불러올 것으로 기대하고 있다. 단백질 합성 공장인 리보솜 구조를 분석한 연구로 2009년 노벨 화학상을 받은 벤카트라만 라마크리시난 영국 MRC분자생물연구소 박사는 "이 계산 작업은 생물학에서 50년 묵은 위대한 도전인 단백질 접힘 문제에 대한 놀라운 발전을 나타낸다"고 평가했다.

허사비스 CEO는 딥마인드 블로그를 통해 “우리는 이것이 AI가 현재까지 과학 지식을 발전시키는 데 행한 가장 중요한 기여이자 AI가 인류에게 가져올 수 있는 이점의 훌륭한 예라고 믿는다”며 “이러한 통찰력은 생물학과 의학에 대한 우리의 이해에서 많은 흥미진진한 미래 발전을 뒷받침할 것”이라고 말했다.
----------
FOLDIT

10년간 못 푼 단백질 구조, 6만명 게이머 10일 만에 풀어
새로운 RNA 구조 만드는 게임, 실제 실험 거쳐 점수 매기기도

◇집단 지성 활용한 과학연구 게임

폴드잇은 이달 초 저명 과학저널 사이언스와 미 국립과학재단(NSF)이 선정한 '2012년 국제 과학·공학 시각화 대회'에서 게임부문 1위로 뽑혔다. 과학에 대한 배경지식이 없어도 몇 가지 원칙만 배우면 누구나 쉽게 따라 할 수 있는 것이 특징이다.
단백질은 20가지 아미노산으로 구성돼 있다. 이 아미노산 사슬들은 분자 간에 서로 밀고 당기는 힘에 따라 적절히 접히면서 3차원 구조를 만든다. 단백질 기능을 분석하려면 아미노산 사슬의 구조를 컴퓨터로 계산해야 하는데, 아미노산을 이루는 분자가 워낙 많아서 오류가 발생할 수 있다.
워싱턴대 연구진은 "컴퓨터는 복잡한 계산에서는 인간을 능가하지만, 직관이 필요한 3차원 퍼즐 풀이에는 인간보다 떨어진다"는 점을 이용해 게임을 만들었다. 사람들이 폴드잇 게임을 하면서 단백질 구조를 찾으려 경쟁하다 보면 자신도 모르게 에이즈나 치매 같은 질병 치료제 개발에 도움을 주도록 만든 것이다.
실제로 지난해 9월 워싱턴대는 '네이처 구조 분자생물학'지에 폴드잇 게이머들 덕분에 세포에서 에이즈 바이러스가 증식하는 데 필수적인 한 단백질의 구조를 알아냈다고 발표했다. 10년간 수많은 과학자들이 해결하지 못한 문제를 게이머 6만여명이 달려들어 10일에 해결했다는 것이다.
에이즈 치료제 개발에 필요한 단백질 3차원 구조를 분석하는 게임인‘폴드잇’(왼쪽). 아미노산 사슬(초록색)을 분자 간에 밀고 끄는 힘을 고려해 이리저리 접어서 에너지가 가장 작은 안정된 3차원 구조를 만들면 된다. 컴퓨터의 DNA 해독 오류를 찾아내는 게임‘파일로’(오른쪽). /미국 워싱턴대·캐나다 맥길대 제공

◇게임 채점은 자연이

미국 카네기멜런대와 스탠퍼드대가 개발한 'EteRNA' 게임도 폴드잇과 비슷하다. DNA 유전정보는 RNA를 거쳐 단백질을 만드는데, 일부 RNA는 유전자 조절 기능이 있다.
게이머는 간단한 규칙에 따라 유전자 조절에 핵심적인 역할을 하는 RNA의 새로운 구조를 만들어야 한다. 연구진은 이 가운데 매주 게임에서 최고점수를 얻은 RNA 구조를 실험실에서 합성해 실제로 기능을 하는지 확인한다. 게임에서 최고점을 얻었을지라도 실제 합성하면 제대로 구조가 이뤄지지 않을 수도 있다. 게임의 모토처럼 '게임은 사람이 하고, 점수는 자연이 매긴다(Played by Humans, scored by Nature)'는 것.
컴퓨터와 인간이 서로 부족한 부분을 보완하는 과학 연구 게임도 있다. 캐나다 맥길대 연구진이 개발한 '파일로(Phylo)'는 질병 유전자 해독 게임이다. 기본 DNA 해독은 컴퓨터가 담당하고, 게이머들은 블록 형태로 제시되는 유전자 서열에서 위치가 잘못된 것을 찾는다. 복잡한 계산은 컴퓨터가 인간보다 훨씬 뛰어나지만, 시각 정보의 패턴을 인식하는 데는 인간이 더 낫다는 점을 활용한 것이다. 지난 2년간 2만명이 참가해 35만건의 DNA 해독 오류를 찾아냈다고 연구진은 밝혔다.

◇퀴즈 풀고 식량 기부하는 게임도

기아(饑餓)와 환경오염 같은 전 지구적인 현안 해결에 동참하는 게임도 있다. 유엔 산하 세계식량계획(WFP)이 개발한 '프리라이스(Freerice)'는 퀴즈의 정답을 맞힐 때마다 10톨의 쌀알을 적립해 기아지역 주민들에게 보내주는 게임이다. 국내에서는 지난해 말 엔씨소프트가 후원사를 맡아 한국어판 서비스를 시작했다. 이재성 엔씨소프트 상무는 "지금까지 3000만원 상당의 쌀을 적립했고 연말엔 1억원 이상의 쌀을 기부할 수 있을 것"이라고 말했다. 엔씨소프트가 2008년 WFP와 함께 선보인 '푸드포스' 한국어판도 유엔의 식량원조와 긴급구호 활동을 임무수행 방식으로 배울 수 있는 게임이다.

NHN한게임이 서비스 중인 '에코프렌즈'는 유엔환경계획(UNEP)에서 '친환경 게임' 인증을 받았다. 게임에서 나무를 심어 온실가스를 줄이고, 친환경 건물을 짓는 등의 임무를 수행하면서 재미를 얻고 환경문제 해결책도 자연스럽게 배울 수 있다.
 



과학 중독자 양성하기…정답 강요가 아닌 참여, 몰입이 관건

[과학기자가 읽는 과학책]‘게이미피케이션’, 게이브 지커맨 외 지음, 정진영 외 옮김, 한빛미디어.

2012년 05월 14일 김규태 기자 kyoutae@donga.com

청소년 범죄가 터질 때마다 원인 중 하나로 ‘게임’이 꼽힌다. 게임 속의 세계와 현실을 구분하지 못한 ‘어리석은’ 청소년들이 사고를 냈다는 분석때문이다. 청소년 범죄를 줄이기 위해 청소년이 특정 시간 이후 온라인 게임을 못하도록 하기 위한 ‘셧다운 제도’가 여전히 논란이다.
성인에게는 도박이 그렇다. 최근 승려들이 도박을 벌인 사태는 외신을 타고 ‘해외 토픽’이 됐다. 해외에 원정 도박을 나갔다 들킨 연예인들이 신문 사회면을 장식하다가 대중들로부터 잊혀진 사례도 빈번하다.
게임과 도박, 대표적으로 ‘중독’이라는 수식어가 붙은 명사들이다. 재미있으니까 중독 되고, 중독 되니 ‘본업’은 잊고 몰입하게 되는 것이다.

●게이미피케이션 ‘중독성을 좋은 방향으로 사용하자’

‘게임은 악의 근원’ ‘게임을 규제하자’는 논리가 대세인 시점에서 게임을 이용하자는 주장을 담은 책이 번역됐다.
이달 1일 초판이 발행된 ‘게이미피케이션: 웹과 모바일 앱에 게임 기법 불어넣기’를 11일 받았다. 이 책은 한마디로 말하면 게임의 기법을 활용해 ‘하기 싫은 일’들을 해보게 만들어보자는 ‘기능서’다.
컨설턴트로 활동 중인 저자들은 스마트폰, 태블릿, 소셜미디어 시대에 맞춰 게임이 갖고 있는 순기능을 활용해 일종의 마케팅 기법으로 활용하자는 주장과 함께 사례 연구와 구체적인 방법들을 소개했다.
저자는 ‘게이미피케이션(Gamification)’을 ‘게임적인 사고와 기법을 활용해 유저를 몰입시키고 문제를 해결하는 과정’이라고 정의한다. 인간의 속성 중에 ‘놀고자 하는 본성’을 최대한 이용해 보자는 것이다. 즉 물건이든 서비스든 파는 측이 사는 사람들의 놀고 싶은 마음을 건드려, 결국은 ‘구매’에 이르게 하자는 말이다.
사실 게임을 활용하자는 얘기가 나온 건 오래전 일이다. 이 책에서는 게이미피케이션이라는 새로운 용어를 만들어, 게임과 관련된 마케팅 연구 방법들을 종합하려는 시도를 하고 있다. 누구나 들어보고 알고 있는 듯한 얘기를 조금 더 체계화 해보자는 시도로 생각된다.

●게임의 핵심은 ‘몰입’

이 책에서는 게임의 특징 중에 ‘몰입’(engagement)을 가장 중요한 개념으로 설정하며, ‘어떤 사람이 다른 사람이나 장소, 물건, 생각 등과 관계를 유지하는 기간’이라고 정의한다.
저자는 ‘수익을 올리기 위해서는 유저들을 몰입 시켜야 한다’고 주장한다. 사람들은 돈을 쓰고 나서 몰입을 하는 게 아니라 몰입을 한 뒤에 돈을 쓰기 때문이다.
그렇다면, 어떤 게임에 몰입이 되는지 살펴봐야 한다. 흥미롭게도 ‘몰입’에 성공한 게임들은 완전히 참신한 것들이 아니었다. 대체로 이미 대중들에게 충분히 알려진, 어찌 보면 ‘재탕’에 가까운 것들이다. 저자는 농작물 심기, 식당 서빙, 미용하기, 비행기 착륙시키기 등을 성공 사례로 든다. 최근에 우리나라에서 수년간 사이에 유행한 게임인 ‘앵그리 버드’, ‘카트라이더’, ‘뿌까 레스토랑’ ‘고스톱’ ‘프로야구’ 등도 디자인과 이름이 바뀌었을 뿐 과거부터 있던 내용들이다.
어찌 보면 진부한 게임들에 사람들이 몰입하는 것에 대해 저자는 “게임의 재미는 주제가 아니라 메커니즘에 달려있기 때문”이라고 분석한다. 전 세계의 슬롯머신 종류가 엄청 만치만 작동 메커니즘은 큰 차이가 없다.

●기존 교육용 게임은 ‘몰입’에 실패 vs 성공한 게임의 SAPS 전략

그동안 교육계에서는 ‘에듀테인먼트’라는 명목 하에 수많은 게임을 만들었지만 그리 성공한 작품을 찾기 힘들다. 오히려 게임용으로 개발된 도시 건설 시뮬레이션 게임인 ‘심시티’와 ‘문명’은 긍정적인 부작용으로 ‘교육’ 효과를 가져왔다.
저자는 “(교육용 게임들이) 부모님과 선생임이 제작에 참여하면서 단순히 게임에서 기계적으로 추출한 재미 요소를 교육용 소프트웨어에 적용했다”고 지적했다. 부모나 교사 보다 게임에 훨씬 능숙한 아이들이 이러한 의도를 모를 리 없기 때문이다.
집착할만한 보상책이 있다면 사용자들은 몰입을 하게 된다. 즉, 중독이 된다. 저자는 지위(Status), 접근권(Access), 권력(Power), 물품(Stuff) 등 4가지를 대표적인 보상책으로 제시했다.
게임에서의 순위는 ‘지위’를 말해준다. 게임 상급자에게 주어지는 할인권, 프로게이머 등과의 만남 권한 등이 ‘접근권’이다. 게임 속에서 다른 사용자를 지배할 권리, 포름 등에서 관리업무를 하는 것 등이 ‘권력’이며, 경품 등은 ‘물품’에 속한다.
결국 게임에 몰입 또는 중독시키는 것은 ‘주제’ ‘소재’가 아니라 ‘매커니즘’ ‘과정’이라는 주장이다.

●‘하드 코어’ 지식인 과학에 적용하면?

이 책에서는 게임 방법으로 ‘교육’ ‘체력단련’ 등에 적용하는 사례를 언급하고 있다. 그동안 시도는 많았지만 성공적이지 못한 분야다. 일부 성공사례 분석을 통해 흥미를 통해 ‘고통스러운’ 작업인 공부와 운동에 몰입하게 하자는 것이다.
그렇지만 과학에 적용한 사례를 이 책에서 찾을 수 없었다. 아마도 ‘달리기해서 살 빼기’보다 훨씬 적용하기 어려운 것이 ‘과학 게임’이라고 생각된다.
과학 쪽에서 게임을 이용해 나름대로 효과가 있었다고 보고된 것은 ‘폴드잇(FoldIt)’이라는 집단 연구 게임이다. 이 게임은 2008년 5월 데이빗 베이커 워싱턴대 교수 팀이 제작했다. ‘흔들기’ ‘구부리기’ ‘다시 만들기’ 등의 기능을 이용해 단백질의 3차원 구조를 더욱 효율적인 형태로 바꾸는 게임이다. 접힘 현상의 효율이 좋아질수록 높은 점수를 받을 수 있다. 이 게임에는 10만 명 이상 참여했다. 이 연구는 지난해 9월 ‘네이처 구조 분자생물학’에 발표됐다.
최근 국내에서는 프로야구에서 4할대 타자가 사라진 이유를 연구한 ‘백인천 프로젝트’가 진행됐다. 과학자와 비과학자 등 58명이 참가해 3개월가량 진행했다. 게임화된 것은 아니지만, 다수가 참여해 흥미를 갖고 진행된 공동 연구라는 점에서 주목할 만하다.
폴드잇, 백인천 프로젝트의 사례는 다수를 어떻게 골치 아픈 과학적 주제로 이끌었는가를 잘 보여주는 사례다. ‘게이미피케이션’의 저자가 지적하듯, 주제자체에 대한 강조가 아니라 참여를 통해 무엇인가 보상을 받는 구조가 성공의 열쇠로 보인다.
‘과학대중화’라는 주제로 과학계는 수 십 년 이상 막대한 자금을 사용했다. 그러나 ‘과학 문맹 조사’ 결과를 보면 ‘과학’을 ‘대중화’하는 것은 정말 요원해 보인다. 아마도 정답이 있는 과학 숙제의 문제를 강요했기 때문에, 훌륭한 과학자들의 과학 강의를 주입 받아야 한다는 압박 때문에 효과를 내지 못한 것은 아닐까.
이 책에서 내세우는 방법들이 아직 확증된 것은 아니지만 몰입 과정에 집중한다는 측면에서 의미가 있어 보인다. 과학에서도 ‘의도한 정답 찾기’가 아닌 ‘문제 찾기, 함께 풀어가기’를 내세운다면 사람들이 흥미를 갖고 과학의 문제풀이에 동참할 수 있지 않을까. 그리 성공적이지 못했던 광우병, 원자력 이슈 등의 해법 찾기에도 게임 방법을 한번 도입해볼만 하다.



페이스북       방명록      수정 2021-07-25 / 등록 2012-02-28 / 조회 : 20300 (427)



우리의 건강을 해치는 불량지식이 없는 아름다운 세상을 꿈꾸며 ...  2009.12  최낙언