세미나 후기

[가짜연구소] 인과추론으로 네트워킹 참여 후기

graph-dev 2024. 5. 26. 18:14
728x90

 

인과추론 네트워킹 후기

인과추론으로 네트워킹하기

 

가짜연구소에는 인과추론 스터디 팀이 있습니다. 2022년부터 시작했으니 약 2년이 넘은 스터디그룹으로, 오랜시간동안 다양한 일이 있지만, 끝까지 살아있는 멋진 스터디 팀으로 기억하고 있습니다.

 

마침, 인과추론 팀이 OP.GG 사옥에서 네트워킹 행사를 진행한다기에, 그 스터디의 근황이 궁금하여 신청하였고 참여 확정이 되었습니다. 두근거리는 마음으로 참여하였고, 대관 장소에 도착하면서 느낀 감정을 담아보았습니다.

 

OP.GG 사옥: 게임을 곁들인 디자인

사옥에 도착하자마자, 디자인이 좋아서 열심히 사진을 찍었습니다. 회사 이름을 큼직하게 만들어 여러 곳에 배치해두었고, 주변에는 각종 굿즈(비싸다는 그 굿즈)로 가득하고 나무 색으로 안정감을 주네요.

OP.GG 사옥의 모습

 

그 외에 행사를 위해 간단한 간식을 준비했고, 놀라운건 갑자기 등장한 게임방스러운 의자와 키보드입니다. 회사에서 정말 게임을 할 수 있다고 하니, 게임을 좋아하는 사람이라면 이 회사..가봐도 좋지 않을까 싶습니다.

 

게임방도 있는 모습에 반하다.

 

 

조금 일찍 도착하여 본 행사 전에 가볍게 모르는 분과 아는 분들 가볍게 인사를 나누었습니다.

 

환영 메시지

 

 

 

행사 키노트: 인과추론 스터디 이야기

인과추론 키노트

 

인과추론 스터디를 이끌고 있는 신진수님의 키노트로 시작했습니다. 가짜연구소 인과추론팀은 2022년 3월부터 2년간 진행된 모임입니다. 현재 총 네가지 스터디를 각 빌더님들이 진행해주신다니, 기회가 된다면 청강도 해보고 Youtube에 올라온 강의도 보면서 공부해봐야겠습니다.

  • 실무로 통하는 인과추론 with Python 특강
  • 온라인 통제 실험 연구자로 거듭나기
  • Smart Causal Inference
  • 인과추론과 실무

 

본 인과추론팀의 목표는 다음과 같습니다.

 

한국어 자료가 많지 않은 인과추론과 온라인 통제실험에 대한 접근성을 높이자.

 

 

좋은 목표이고, 이렇게 시작하는 것도 충분히 공부가 되고 나아가 많은 분들이 관심가질 수 있는 방법이라고 생각합니다. 영어로 된 많은 자료를 보면서 훌륭한 강의가 한국어가 아니란 이유로 접근성이 떨어진다는 것만큼 아쉬운 것도 없죠. 하나씩 번역도 하고, 자기 언어로 만드는 것이 공부가 아닐까요?

 

이후 후원사 소개와 올해 박지웅 교수님의 주관으로 진행될 여름 인과추론 워크샵 연사자 모집을 소개하는 것으로 마무리했습니다.

 

 

인과추론팀 소개

 

 

 

 

가짜연구소 소개: 오픈의 가치를 보이다!

가짜연구소 김찬란님의 소개를 들었습니다. 오픈의 가치를 추구하는 우연한 혁명가들의 [] 공동체라는 이름으로 시작했습니다.

 

가짜연구소 소개

 

가짜라는 말은 정부에서 그렇게 좋아하지 않죠. 굳이 가짜를 넣은 이유가 있을까요? 가짜 사나이라는 프로그램을 이야기하며, 진짜 사나이라는 프로그램과 비교를 해보았습니다. 가짜 사나이라고 해서 진짜 사나이보다 퀄리티가 떨어지지 않았습니다. 진짜 부대에서 수행된 프로그램이었죠. 

 

가짜 연구소도 마찬가지입니다. 가짜 연구소도 연구소라면 떠오르는 다양한 프로그램과 업무를 수행합니다. 아카데미, 커뮤니티, 이니셔티브라는 세가지 프로그램이 있습니다.

  • 아카데미, 커뮤니티, 이니셔티브
    • 아카데미: 누구나 참여 가능합니다. 최대한 청강 가능한 점이 마음에 드네요.
    • 커뮤니티: 너드하고 개방적인 문화. 네트워킹 많이 진행하며 새로운 동료를 만들 수 있습니다.
    • 이니셔티브: 이전에 없던 새로운 것으로, 함께 성장하고자 로그를 기록합니다. 오픈스터디 데이터셋도 구축하고 다양한 연구에도 활용하고자 합니다.

 

이 외에도, 외부 채널과 연계하여 다양한 프로그램을 수행합니다. 특히, 허깅페이스라는 조직에서 가짜연구소 채널을 만들어주었다고 하니, 멋있네요. 조금씩 확장해나가는 모습이 좋습니다. 이 모든게 비영리로 진행하며 스터디 자료를 공개하는 점도 마음에 듭니다.

 

가짜연구소 역할을 세가지로 정리해주셨습니다.

 

  1. 단기 문제 해결
  2. 성장 생태계 조성
    1. 한명의 성장 → 지속적 성장
    2. 공유해주세요. 동기부여 합니다. 사람들이 공유를 잘 안해줍니다.
  3. 장기적인 비영리 연구
    1. 한국은 왜 이런게 없을까?
    2. 돈에 휘둘리지 않는 공동체

 

가짜연구소 소개

 

마지막으로, 가짜연구소의 연구원이 되는 다양한 방법을 소개해주셨습니다. 다양한 방법이 있으니 자유롭게 선택해서 들어가볼 수 있겠네요! 

 

가짜연구소의 일원이 되는 방법

 

 

후원사 세션: OP.GG를 소개합니다!

글로벌 넘버 원! 세계 일등을 노리는 OP.GG 이야기를 들었습니다. 가장 먼저 이 장소, 오피스, 사옥에 대한 이야기를 간단히 해주셨습니다. 특히 세심하게 오피스를 만들었고, IT 생태계 확장을 위해 대관도 하고 있다고 합니다. 자주 요청을 드려보겠습니다.

 

본 오피스는 remote work를 목표로 만들었습니다. 관련 홍보 영상을 보니, 그럴만 하네요.

  • About OP.GG 소개
    • 글로벌 사이트!
    • 많은 투자를 받고 있어요. LOL 때문에 라이엇 게임즈와 협업중.
    • 디자인에 진심인 회사 (독일 레드닷 수상 다수)
    • 이스포츠 교육 체결
    • 넥슨과 함께 게임 데이터 서비스도 구축중!

 

  • 요새는 채용시장이 얼어붙은 상태라 과거처럼 대규모 채용 투어는 하지 않고 있어요.
  • 재밌는 서비스가 많네요.

OP.GG 소개

 

 

Life at OP.GG

OP.GG의 신념은 다음과 같습니다. 온라인 공간에서 인간적 가치를 믿는다고 합니다. 이 점은 가짜연구소의 시작과도 비슷하네요.

  • 신념: 온라인에서 경험하는 인간적 가치를 믿습니다.
    • 2012년 온라인에서 만남을 경험하고, 그 가치를 설명합니다.
  • 미션: 전 세계에 게임에 대한 열정을 불러 일으킵니다!
  • 비전(단기 목표): 세계 중심의 게이밍 허브가 된다.
    • OP.GG라는 사이트. 미디어, 교육 등으로 넓게 확장해 나간다.

멋진 목표가 있고 널리 성장해가는 OP.GG 응원합니다.

 

OP.GG의 가치

 

OP.GG가 추구하는 사람은 무엇일까요? 세상 모든 서비스에 관심 많은 예비 기업가라고 합니다. 관련하여 세가지 핵심 가치를 제시하네요. 사내기업가정신, 자기 결정의 자율, 근거있는 솔직함이라는 키워드로 설명해주셨습니다.

 

  • 핵심 가치
    • 사내기업가정신
      • 사례: 개인이 관심 있는 크롬 앱 개발해서 건의 → 전폭 지원 → 런칭도 합니다.
    • 자기 결정의 자율
      • 재택근무 많이 함.
      • 내가 가장 업무를 잘할 수 있는 장소에서 근무함.
      • 복지가 아닌, “가장 효율적으로 일하는 “ 문화.
      • 원활한 리모트 워크를 위한 약속.
        • 가능한 카메라를 켜서 해라.
    • 근거있는 솔직함
      • 왜곡없이 논거 기반으로 말할 수 있다.
      • “기명”으로 말한다. (익명은 아니다.)

마지막으로, 무제한업무지원제도를 소개하며, 업무에 관련된 모든것을 제한없이 지원해준다고 합니다.

 

OP.GG의 핵심 가치

 

이 모든 것이 오피지지 채용블로그에 담겨있다고 합니다. 최근에는, 사내 구성원을 위한 OpGPT 이야기도 직접 썼다고 하니 한번 들러서 구경해봐야겠습니다.

https://ko.opgg.team/hiring

 

Hiring

☑️ We're hiring now!

ko.opgg.team

 

 

 

인과추론팀: 커리어 성장곡선을 바꾼 처치

인과추론팀의 개인의 경험과 하고 있는 연구 소개에 관해 각각 소개해주셨습니다. 먼저 김성수님의 개인의 경험과 커리어 성장을 바꾼 이야기로 시작했습니다.

 

인과 추론의 커리어 성장곡선을 바꾸는 처치 이야기

 

Q1. 데이터 커리어와 인과추론

  • 인과추론에 왜 관심을 가지게 되었나요?
    • 표류와 향해
    • 인과추론도 비즈니스 목표 달성의 도구.
  • 어떤 것이 다른가?
    • 추구하는 목표가 다르고
    • 접근 프로세스가 다르다.
  • 머신러닝 vs 인과추론
    • 인과추론은 평가와 일반화가 어렵다.
      • identifiaciton → Estimation
      • 관찰 불가능한 숫자로 평가해야함.
      • 정량화할 수 없다.
  • 그러면 어떤 기준으로? 빌드업이 더 중요하게 된다.
  • 예측 방법론과 인과추론 방법론은 데이터 과학 내에 상호 보완적인 것이다. (박지웅 교수님.
  • 데이터 커리어와 인과추론?
    • 진행한 이벤트가 효과가 있었나?
    • 현업의 요구사항: 효과 추정 & Why? → 이제는 '인과 추론해보겠습니다.'로 검증 가능하다.
    • 방향성: 현업 난제 해결과 의사 결정을 도와줄 수 있는 데이터 과학자 → 데이터 실무자(LAB TO LIFE)

 

데이터커리어와 인과추론

 

  • 인과추론의 적용과 시작이 궁금하여 스터디 시작
  • Causal inference brave and true 번역.
    • 인과추론 금융 도메인에 적용해보기 - 개인채무불이행 리스크 분석
      • DO-I 프레임워크에서 그래프 적용하고 인과 방향 추론.
      • 2022년 지능정보시스템 학회 발표.
  • 이제는 Deep Dive 해보자.
    • 인증이 매출에 미치는 효과를 찾는다.
    • PSM이라는 매칭방법보다는 다른 걸 해보자. 빌드업이 중요한 과정이다.
  • 결국 Endogeneity를 어떻게 처리하는지, 설득해야함.
  • Counterfactual Explanation 시스템 개발도 수행

 

실험 플랫폼

Toward Automated Causal inference 실험 플랫폼(Experiment Platform)

  1. 할당 그리고 Config와 연계된 화면과 로깅 시스템
  2. 실험 과리와 Config 서버 등. 관심갖고 개발 중.

“현업 난제 해결과 의사 결정을 도와줄 수 있는 데이터 과학자” , “Causal Ops”

 

이 모든 것이 “성장 곡선을 위한 처치” (treatment)라고 강조해주셨습니다.

 

 

 

CTR의 분산 추정 중 빠질 수 있는 함정

마지막 강의는 방태모님의 CTR의 분산 추정 중 빠질 수 있는 함정이라고 소개해주셨습니다. 수리통계학으로 설명을 많이 해주셔서, 간만에 잊고있던 수리통계 지식을 끄집어냈습니다.

CTR의 분산 추정

 

방태모님은, 온라인 통제성 높이고 실험 속도 높이는 통계 방법론에 관심이 많았습니다. 현재도 A/B 테스트 적용에 관심을 갖고 있으며, 실험을 위한 대시보드 개발도 하고 있다고 합니다.

 

현재 "온라인 통제 실험 연구자로 거듭나기" 스터디도 진행하며, 아쉽게도 청강은 어렵다고하니 유튜브로 찾아봐야겠네요.

 

두 지표 간 비율 지표에 관한 분산 추정

  • 관찰 단위: 실험에서 최종 측정값이 나오는 최소 단위
  • 퀴즈 1. 온라인 통제 실험의 관찰 단위는? 사용자

사용자 단위 지표

우리 프로덕트의 핵심 지표가 CTR? (A/B 테스트)

 

CTR = Sum(Click) / Sum(PV)

PV(Page View) 이건 독립적이지 않음.

 

이 지표에 대한 분산 추정이 필요할 때는 어떻게 해야하나요?

비율 지표의 분산 추정

  • p-value
  • CTR: 비율 지표라 함.(모비율이 아닙니다.)
  • CTR = Click합 / PV합
    • 확률변수: 사용자 측정되는 모든 지표
    • 상수는 고유 사용자의 수 (표본 크기, N)
  • 실무로 통하는 인과추론: 통계 분석 자료.
  • Delta Method: 수리통계학적 방법론을 적용함.
    • 확률변수의 점근분포 유도에 쓴다.
  • 사용자 단위 지표의 표본평균, 표본분산, 공분산 정보만 있으면 된다.

Delta %에 관한 분산 추정

  • 델타퍼센트: 대조군 대비 실험군에서 핵심 관심 지표(M)의 변화율

 

이렇게 비율 지표의 분산 추정, 델타퍼센트를 사용하는 방법 등을 수리통계학 관점에서 잘 풀어주셨습니다. 요약하면 아래 그림과 같습니다.

 

실험 기간 동안 관측된 사용자의 개별 관심 행동 데이터만 있다면, 관심있는 모든 통계량을 Delta Method로 계산할 수 있다.

 

요약

 

네트워킹과 럭키 드로우 with PDF(Pseudo Dev Factory)

 

이게 메인 세션이죠. 네트워킹 시간입니다. 가짜연구소의 개발자 데브 스쿼드(PDF) 분들이 모여서 만들어주신 빙고를 적극 활용했습니다. 김광일님과 이동욱님의 진행으로 해당 프로그램을 사용하여 서로 키워드를 나누며, 즐겁게 네트워킹 시간을 보냈습니다.

 

마지막으로 럭키드로우는 코드로 나오는 랜덤 ID값으로 10명 정도 추첨하여 책을 지급했습니다. 아주 알차게 보낼 수 있었네요! 책도 열심히 읽어보려고 합니다.

 

마지막은 럭키드로우 사진으로

 

 

이 모든 자료를 가짜연구소 측에서 공유해주셔서 아래 링크로 남깁니다.  공유하고 성장하는 비영리 모임인 가짜연구소와 함께해요! 인과추론팀의 앞날을 응원하며, 이 글을 마칩니다.

 

 

가짜연구소 | Pseudo Lab

가짜연구소는 머신러닝/데이터사이언스를 중심으로 모인 비영리 커뮤니티입니다. 성장의 앙상블이 만들어내는 울림을 통해 개인과 커뮤니티의 성장의 사이클을 함께 만들어나가요!

pseudo-lab.com