오늘은 팔란티어 더블클릭 데모데이에서 생명과학분야 영상을 정리해봤습니다.
이번 영상은 이렇게 생각하는 사람이 있구나 정도로 봐주시면 감사드리겠습니다.
영상을 보시고 혹시 다른 생각을 갖고계시거나, 제가 틀리거나 놓친 부분이 있다면 알려주세요.
우선 생명과학 분야 데모영상은 총 4개 파트로 나눠져 있습니다.
1)데이터 거버넌스, 2)분석, 3) 데이터, 4) 지식 관리
데이터 거버넌스
데이터 거버넌스 파트에서는 파운드리를 통해 데이터에 대한 권한, 열람통제가 간편하고 쉽게 파악할 수 있다는 것을 강조하고 있습니다.


생명공학 데이터는 임상적 관찰, 게놈 이미지, 센서 데이터 등 인류의 질병에 대해 전무후무한 데이터를 보유하고 있기 때문에 이런 데이터에 대한 엄중한 관리조건과 열람통제가 굉장히 중요하다고 합니다.
팔란티어의 파운드리는 어떤 데이터셋이든지 상관없이 클릭 한번으로 데이터가 어디에 쓰였는지 볼수 있고, 어떤 용도로 사용되었는지 이해할 수 있습니다. 그 이유는 파운드리는 데이터를 열람했던 ‘의도'가 자동으로 기록되기 때문이고, 그 결과 관리팀에서 민감한 데이터 관리에 대한 리스크를 줄일 수 있습니다.


제일먼저 데이터를 요청하면 데이터 열람이 연구를 위해 필요하다는 것을 보장받기 위해 감사를 받습니다.
파운드리 프로그램에서 프로젝트 목적과 어떤 데이터가 필요한지 명시하면 검토하고 결재를 받습니다.
그러면 기관들은 어떻게 데이터 열람을 허가할지 정하고, 요청이 승인되면 파운드리 내에 새로운 프로젝트가 생성됩니다.

이 프로젝트 안에 우리가 요청한 데이터가 전부 포함되어 있고, 이 프로젝트는 승인된 인원만 열람 가능하고, 프로젝트 내의 모든 작업은 투명하게 공개됩니다.(어느 시점, 어느 관리팀, 누가, 어떤, 데이터에 권한이 부여되었는지, 왜 그 데이터에 대한 권한이 주여졌는지 까지)
따라서 모든 종류의 데이터에 대해 통제가 가능하다고 합니다.
분석
우리가 어떤 실험을 할때 연구를 진행할 수 있을지를 판단하기 위해, (만약 의학 관련이라면), 이 데이터가 의학적 관련이 있는 데이터인지? 통계적 분석이 가능한 집단인지를 판단해야합니다. 그렇지 않다면 당연히 연구를 진행할 수 없습니다.
이런 과정을 ‘타당성 검증' 과정 이라고합니다.
이 과정에서도 시간이 소요되지만, 이미 유사한 분석을 진행했던 연구원의 경험을 가져온다면 쉽고 빠르게 타당성 검증을 할수 있을겁니다.
파운드리 코호트 앱은 의학 전문가, 데이터의 소유자, 바이오 통계학자의 경험을 라이브러리 형식으로 간편하게 불러와서 재사용할 수 있고, 덕분에 빠르게 타당성 검증 과정을 할 수 있도록 도와준다고 합니다.
데모에서 데이터 사이언티스트간의 협업도 중요하다고 합니다.
데이터 사이언티스트 들은 모델개발을 위해 각자 원하는 코딩 언어를 사용합니다. 예를 들어 python이나, R 언어를 사용할 수 있습니다. 파운드리는 데이터 사이언티스트들이 광범위한 환경에서 최대한 유연하게 작업할 수 있도록 도와주고, 사이언티스트들의 분석 결과와 모델을 열람하고, 감사, 공유 하도록 도와준다고 합니다.

실제 팔란티어 코드 워크북 도구에는 데이터 사이언티스트들이 R, Python, SQL을 자유롭게 이동하며 사용할 수 있습니다. 이런 코드 워크북은 데이터 사이언티스트들이 데이터 분석을 위해 실제 코딩 작업을 하는 프로그램 , 공간으로 보여집니다.

코드 워크북 도구 역시, 클릭 몇번으로 라이브러리나 패키지들을 쉽게 추가할 수도 있습니다.
이렇게 되면 예후모델 연구를 위한 준비가 완료된 것이라고 합니다. 관리팀이 권한을 허가해줬고, 데이터 엔지니어들이 이미 데이터들을 연걸해놓았기 때문에, 이는 데이터 과학자로서 바로 분석에 들어갈 수 있다는 것을 의미합니다.
실제 파운드리는 EHR과 같은 외부시스템에 배치시켜 진단을 도울 수도 있다고 합니다.
(Electronic Health Records, EHR: 전자의무기록, 디지털 형태로 체계적으로 수집되어 전자적으로 저장된 환자 및 인구의 건강정보이다)
실제 실무진들이 굳이 폐암 예측모델을 사용하는것이 아니더라도, 이런 데이터 집단에서는 이런 분석결과, 이런 특징들이 있었다를 실무진들이 실시간으로 파악하는데 도움될거라 생각이 들었습니다.
데이터
좋은 모델을 만들기 위해서는 좋은 데이터가 있어야합니다. 여기서 좋은 데이터는 여러 환자에게서 나온 다양한 특징을 갖는 데이터를 의미합니다. 왜 다양한 특징을 갖는 데이터가 중요하냐면, 폐암 환자를 예시로 들면, “이런 특징을 갖는 사람은 폐암이다.”, “또 다른 특징을 갖는 사람도 폐암이다." 등… 이렇게 무수히 많은 특징과 여러 경우의 수를 통해 폐암에 걸리는 사람들의 패턴을 찾아낼 수 있기 때문입니다.
대부분 기관들이 데이터 저장을 위해 각자만의 생태계를 갖고있어서 데이터가 여러 포맷으로 구성되었다고 합니다. 하지만 파운드리는 각 기관의 어떤 데이터 포맷이든지 쉽고 빠르게 합칠수 있다고 합니다.
또, 이런 데이터를 합칠때 무작정 합치는게 아니라, 데이터 엔지니어에게 자동으로 업데이트를 알리고, 예상된 퀄리티에서 벗어나면 알람이 울린다고 합니다. 그래야만 데이터 엔지니어들이 모든 환자들에 대한 데이터 표준화 작업을 할 수 있습니다.
데이터 표준화 작업은 데이터에 대한 명칭 이나 규칙, 형식등을 정하고, 그 형식에 맞게 데이터를 이쁘게 만드는 작업을 의미합니다. 쉽게말해 데이터 엔지니어분들은 계속해서 들어오는 데이터를 어떻게 수집할지? 어떻게 쌓을지? 어떻게 관리할지?를 고민하고 최대한 효율적으로 데이터를 관리할 수 있도록 도와주는 일을 하고 계십니다.
여기서 파운드리 아키타입 이라는 것을 통해 몇년씩 걸릴 표준화 작업을 단 몇 주로 줄일 수 있다고 합니다.
예시)
각각의 박스들은 데이터 세트를 의미하고, 우측으로 갈 수록 데이터 분석을 위한 준비가 된 데이터 세트들 입니다. 따라서 데이터 사이언티스트들은 앞서말씀드린 데이터와 씨름하는데 시간을 소비하지 않고, 준비가 완료된 데이터세트를 바로 사용할 수 있으며, 각각의 데이터 세트들의 연관성을 쉽게 파악할 수도 있습니다.
새로운 데이터를 추가하고 싶을 경우 해당 데이터에 대한 속성을 간단한 클릭 몇번으로 추가할 수 있고,

이렇게 추가된 데이터는 다시 기존 데이터들과 어떤 연관성이 있는지 전부 연결됩니다. 기관의 연구원들은 간편하게 데이터 변환 작업 없이 데이터세트를 사용할 수 있게 된 것입니다.
여기 10개의 실험이 있고, 여러 차이점이 존재합니다. 파운드리 Entity Resolution 아키타입은 자동으로 모델 또는 확인할 변수를 추천하고, 각 종목 전문가들의 논리적으로 체크해야할 사항을 확인시켜준다고 합니다.
물론 데이터에 대한 전체 출처, 변화들이 자동으로 기록되고, 이후 사용자에게 투명하게 보여진다고 합니다. 즉 꾸준히 들어오는 데이터세트들을 딱 한번의 조합만 하면 된다는 것입니다. 이런 표준화 아키타입은 한 환자의 증상을 다른 소스의 환자와 그대로 비교할 수 있도록 도와줍니다.
지식
지식 앞서 설명드린 데이터 거버넌스, 분석, 데이터 단계가 완료된 상태에서 어떻게 연구원들이 실험 결과를 공유하고 더할 수 있는지를 보여줍니다.

동일한 데이터 세트로 다양한 연구결과들을 확인할 수 있습니다. 이 구조로 현재 진행되고 있는 연구를 찾아 사용함으로써 내 연구를 더 빠르게 진행할 수도 있습니다. 물론 내 연구에서 얼마나 많은 권한을 오픈할지는 본인 권한입니다.

모든 실험결과에서는 재현성 검증 도한 매우 중요합니다. 기껏해서 데이터를 분석하고, 모델을 만들었는데, 재현성 검증이 되지 않는다면 분석결과나 모델을 신뢰할 수 없을겁니다. 파운드리는 내 연구가 어떻게 진행되었는지, 히스토리를 볼 수 있고, 각 단계를 추적할 수 있어서 다른 연구원이 내 연구를 가져와서 진행할 때 재현성을 돕는다고 합니다.
“어떤 데이터를 가져왔고, 특징은 어떻게 추출했는지, 학습 데이터와 평가 데이터는 어떻게 분리했는지, 어떤 학습 메트릭을 사용했는지, 어떤 모델을 사용했는지, 예측 결과는 어땠는지” 등을 추적하고 확인할 수 있습니다.
이렇게 내 연구에 대한 모든 과정들을 재사용할 다른 연구원이 이해할 수 있어야지만 같은 방향으로 연구를 이어나갈 수 있습니다.
추가로 내 연구에서 어떤것이든 누군가 재사용한다면 이 과정을 바로 원작자에게 알린다고합니다.
여기까지 생명공학 파트 데모영상을 제 생각과 함께 정리해봤습니다.
임상연구에서는 데이터 통제, 재현성 검증, 연구원간 안전한 협업이 가장 복잡한 부분이라고합니다. 이번 데모에서는 파운드리를 통해 이런 문제를 어떻게 해결했는지 나름대로 잘 보여줬다고 생각합니다.