세미나 후기

AWS Summit Seoul Day 1 후기: 헬스케어

graph-dev 2024. 5. 23. 09:03
728x90

 

클라우드와 헬스케어: 유전체 분석 연구의 혁신

소개

 

김현민 AWS SA분과 고려대 안준용 교수님의 이야기를 들었습니다.

 

자폐 스펙트럼 장애의 유전체 연구로 유명하시죠. AWS Cloud로 협동 연구의 가능성을 보여준 사례입니다.

 

먼저, 김현민 SA의 이야기로 시작했습니다.

고객들은 많은 것을 AWS에서 수행한다.

  • 모집단 시퀀싱
  • 학술 연구 . 및의료
  • 임상 진단
  • 바이오 제약 R&D
  1. 영국 바이오뱅크
    1. 컴퓨팅, 스토리지
  2. 미국 아이들 병원
    1. 필라델피아 아이들 병원
    2. 임상 의료, 유전체학, 이미지 데이터 통합 → 소아암 환자 연구 혁신을 함.
  3. 임상 진단
    1. 필립스
  4. 바이오제약 R&D
    1. Amazon SageMaker ML

왜? 사람에 대한 건강 개선

  • 멀티 모달
  • 멀티 오믹스: 유전체부터 대사체까지 + 후성 유전체(환경의 영향) + 마이크로 바이옴 & 단백체
    • 더 많은 인사이트를 내놓을 것이다.
    • 의료 현장에서 가속화하기 위해서는 대량의 데이터를 처리하고 통합하는 요구사항이 생긴다.

 

 

특별한 목적을 위한 서비스들

특별한 AWS 서비스

  • 헬스오믹스
    • DNA, RNA 멀티오믹스 데이터를 인사이트로 전환한다.
  • 헬스레이크
    • 빠르게 의료 데이터를 저장, 변환, 처리, 분석 가능.
    • 안전하게 담는다.
  • 헬스이미징
    • 의료 이미징을 저장한다.
    • 비용 40% 이상 절감.
    • 페타바이트 어플리케이션도 1초미만 검색
  • 헬스 스크라이브
    • 의사와 환자간 대화에서
    • 음성 이미지 텍스트로 요약 및 정리해주는 서비스이다.
    • 빠르게 의료 혁신이 가능하다.
    • 환자 대화에 집중함.
  • 이 모든게 HIPPA 적격 서비스, 임상 치료 솔루션 - 기초 의료 데이터 처리는 벗어 던진다.

헬스 오믹스

  • 오믹스 데이터를 저장, 쿼리, 분석하고
    • 해당 데이터에서 의료를 개선하는 것입니다.
  • Refer and seq store: 의료 데이터 저장 및 분석 등.
    • 시퀀스 스토어
      • 저장 데이터가 한달간 오브젝트 접근 없으면 낮은 비용 아카이브. 비용 효율적으로 유전체저장
    • 바이오인포매틱스 워크플로
      • 사전 워크플로
      • 커뮤니티
      • 직접 개발한 워크플로 등록만하면, 컴퓨팅 파워 쉽게 확장
    • 변이 및 주석 스토어
      • 전장 유전체(GWAS) 분석하게 되면 나오는 생물 정보학 포맷 공유하고 바로 쿼리할 수있는 형태로 나온다.
      • 멀티오믹스 등 창출할 수 있음.

워크 플로우

  • 헬스 오믹스 워크플로우 제공
    • 사설 워크플로
      • 소프트웨어, 도커 컨테이너 제작
      • 각 작업별 프로그램을 컨테이너화 시킨다.
      • AWS 헬스 오믹스 시퀀스 등 데이터 오믹스 입력 파일로 제공
    • 두번째는 사전 등록해둔 것(Ready2Run)
      • 각 워크플로 별로 가격 책정됨.
      • 처리해야할 샘플 수만큼 컴퓨팅 비용 측정한다.

멀티 오믹스와 멀티모달 분석.

  • 타사 어플리케이션도 붙일 수있다.
    • 더 많은 의학 데이터 처리할 수 있다.

 

다음은 고려대 안준용 교수님의 유전체 데이터 분석에 관해 AWS 활용기를 들었습니다. 자폐 스펙트럼 유전체 연구에서 위에서 언급한 다양한 AWS 헬스케어 서비스를 적극 활용하였다고 합니다!

 

안준용 교수님 세션

 

대규모 유전체 데이터 분석의 중요성과 당면 과제

안준용 교수님.

  • DNA?
    • 과거 DNA 모습
    • 이제는 유전체 시퀀싱 기술이 읽은 DNA 염기서열.

유전체 시퀀싱 기술과 생물학 연구의 혁명적 전환

  • 인간 게놈 프로젝트
    • 한 사람의 유전자 DNA 정보 매우 비쌌지만 이제 저렴해지고 있어요.
  • 저렴하게 다양하게 검사할 . 수있어요. 손쉽게 유전체 검사해서, 어떤 DNA에 암 관련 정보가 있는지 확인할 . 수 있다.

유전체 빅데이터의 시대

SRA DATABASE 성장

공공만 200 페타바이트 생성됨.

전체는 약 100 엑타 바이트 이상 기대.

  • 영국과 다른 곳 유전체 생산.. 우리도 예정.

VCF

variant calling format

이런 형태로 나타나는 유전 변이를 저장한다.

간단한 형태 Matrix 입니다.

각 row에는 염색체 위치 변이 저장?

1만명의 전장유전체 → 10TB(압축 VCF)

5천만 변이가 있다.

  • 대부분 비슷한 변이를 가지니 중복 변이 제거하면 5천만개. 1만개 컬럼.
    • 큰 행렬

ASC

콘소시엄.

경쟁 아닌 고품질의 재현성 높은 연구 수행.

FTP 전송 어렵고, 글로버스 가능하지만 어렵다.

  • AWS로 국제 협력 가속화 가능하다.

SFARI(대규모 자폐 가족 유전체 연구)

15테라바이트 압축된 VCF

7천만개 변이 데이터에 해당한다.

자폐 70여개 뿐인데,

7천만개 중 70개를 정밀하고 고품질 분석해서 선별해야한다.

  • AWS EMR 서비스로 만들 수 있다.
    • 서버리스로, 9천만개를 400불만으로도 가능
    • 저렴하네요.

유전체 빅데이터 연구를 위한 클라우드 컴퓨팅

  • 공동연구에서 가장 큰 장점이 있어요.
    • 원초적으로 같은 파일 접근하면 같죠.
    • 재현성 높은 연구 가능
    • 공유 플랫폼으로 데이터 공유하고, 의미에 대해 동일하게 파악하여 연구할 수 있다.
    • 연구 재현성을 위해 굉장히 중요한 부분이다.
  • (과거)과학 연구에서 누군가 과학 연구 잘하는가?
    • 이젠 아니다.
    • 어떤 코드를 두고 짰는가? 며느리만 아는 소스가 아니라..
  • 깃허브 등 코드가 이미 공개됨.
    • 이것들을 다 가져와서 보여줄 수 있어야 한다.
    • 규모에 맞게 스케일 분석 → AWS로 손쉽게 가능하다.

Amazon EMR, Hail

  1. Hail
    1. 아파치 스파크 활용하는 라이브러리
    2. 유전체 시스템들을 단계 분석으로 진행할 수 있다.
    3. 아마존 EMR 상에서 올려져 있으니 분석하면 됩니다.
    4. 과거엔 리눅스 서버상 CLI 했는데, 이제는 Hail로 바로 선택해서 할 수 있음.
  2. Hail: 일원화된 분석 플랫폼 제공
    1. 새로운 사람들이 자꾸 유입되어 가르쳐야함.

이젠 인력관리 매니지먼트 시스템이 중요하다.

이 이유는?

Hail?

  • 이런걸 도입해도,
    • 컴퓨터 알고 부품도 알아야겠지만, 이제는 그런 학생이 적어짐.
    • 그래서 AWS 상에서 Hail만 가르치면 아주 능숙하다.
    • 개입이 필요없을 만큼 간단하다.
    • 여러 변화에서 중요한 지점이다.

Hail on AWS

  • 온프레미스
    • 유전체 데이터도 규모화된다.
  • 그래서 입학하면 바로 만명도 분석 가능한데, 온프레미스로는 어렵다.
  • 그래서 Amazon EMR 같은 걸로 분석하면 좋다.
  • 장점은 고도화된다.
    • Amazon EMR Serverless가 등장한다.
    • 서버리스 상에서는 그런거 구성할 필요없이 데이터 중 리소스 확인해서 자동 계산 가능하다.

Hail 벤치마킹 결과

21번 염색체 결과.

클라우드 기반 국제 공동 연구 협업

1. AWS Open Data :

  • 굉장히 정적인 데이터이다.
  • 손쉽게 붙이는 건 오픈 데이터를 활용한 것이다.
  • NOMAD라는 데이터가 있어요.
    • 지놈 어그리게이션 어쩌고.
    • 14만명의 수십 테라바이트 데이터 다운로드하고 → 서버 올려서 → 붙여 분석
    • Hail을 사용하면 이미 S3 상 저장되어 있다.
      • 그래서 url로 붙이기만 해도 바로 데이터 불러와서 분석할 . 수있다.
        • 과거 데이터 MD5 체크하고 그랬는데 그런게 필요 없다.
        • 여러가지 멀티모달 데이터 공급되고 활용된다.
  • 기여자에는 주요 정부 기관, 학술 기관, 비영리 기관 등 기업이 포함된다.

유전체 연구의 새로운 가능성 및 전망

  • 클라우드 기반 연구를 통해 인사이트 도출 가속화된다.
    • 디노바 뮤테이션: 자폐인에게 높은 빈도로 관찰된다.
    • CWAS-Plus : 분석 패키지 개발해서 공유한다.
    • 개발 . 후모든 연구자가 재현하기 쉽게 Nextflow 언어로 바로 가능하게 구현하여 한다.
      • 많은 준비중이다.

고려대는 새로운 사실 들을 보게 된다.

“Health Equity 시스템”

  • 자폐 등 다양성 밝히는 연구를 많이 진행하고 있다.
  • 향후에도 이런 연구를 통해 보지 못한 다양한 유전체 특성 등을 밝히는 연구 진행하고 의료 격차 줄이고 싶다.

 

 

유전체 특성을 밝히고, 궁극적으로 의료 격차를 줄이고 싶다는 안준용 교수님의 이야기를 잘 들었습니다. 특히, AWS Cloud를 통해 좀 더 빠르고 편리하게 유전체 분석이 가능하다는 점은, 연구자로서 좋은 소식입니다. 어려운 장비와 그에 대한 숙달 과정이 길수록 진입장벽은 크게느껴집니다.빠른 변화가 일어나는 시대에 꼭 필요한 클라우드 기반 분석과 연구가 좀 더 활발해지길 기대합니다!