이 책이 다루는 범위가 제 기준으로는 매우 방대한 편이었습니다. AI 엔지니어링 하나에 AI 모델, 파운데이션 모델, 평가 방법론, 프롬프트 엔지니어링, RAG, 에이전트, 데이터셋 엔지니어링, 추론과 최적화, 아키텍처 및 피드백 등 다양한 내용을 다루고 있었습니다. 한번 읽는다고 모두 소화하기 어려울 수준이었습니다.
어제는 벡터 검색 알고리즘을 보고, 오늘은 데이터셋 큐레이션을 보는 다양한 콘텐츠로 하루하루 즐겁습니다.
일종의 카탈로그 같은 느낌을 받았습니다. 다양하고도 필요한 콘텐츠를 눌러 담은 햄버거나 샌드위치 느낌이 들었습니다. 그래서 더 좋은 것은, 듣기만하고 명확히 몰랐던 "용어"를 조금 더 알아갈 수 있었습니다.
제가 주목한 부분은 데이터셋 큐레이션과 사용자 피드백입니다. 이 내용을 중점적으로 파고 들어가겠습니다.
데이터셋 큐레이션
그 중에서 데이터셋을 생성하고, 큐레이션하는 과정 부분에 더 주목했습니다.
"큐레이션" : 양질의 정보를 선별하고 분류해 특별한 의미를 더해 제공하는 행위로, 정보의 홍수 속에서 필요한 것을 찾기 쉽게 만듭니다.
데이터를 생성하는 과정은 자동화하기 어렵다고 저자가 말합니다. 합성 데이터, 증강 데이터를 생각해보면 가능할 것 같지 않나요?
합성 데이터는, 데이터 '양'을 늘리는 것에는 도움이 되지만, 처음부터 데이터를 만들기 위해 정의하는 것에는 한계가 있다고 합니다. 그렇기에, 기존에 마련된 공개 데이터셋을 기반으로, 저작권 문제를 해결한 데이터를 활용하는 과정에서는, 사람이 개입할 수밖에 없습니다.
특히, 지금 시대는 거짓 데이터도 넘쳐나는 시대이고, 이러한 정보가 학습되면 결국 GIGO(Garbage In, Garbage Out), 환각으로 가득한 가짜 정보만 생성될 뿐입니다. 신뢰성 또한 떨어지겠죠.
그런 지점에서 데이터셋을 큐레이션하는 직군이 더욱 돋보이는 시대가 될 것이라 생각합니다. 특히, 빅데이터 시대는 과거 통계에서 사용했던 모집단에서 샘플링 방법이 사라지고, 전수조사 형태로 활용한다는 의견이 지배적이었는데,
저작권 문제, 거짓 정보 데이터, 유해 데이터 등으로 인해 오히려 큐레이션 과정을 통한 "샘플링" 과정이 필요해진다는 점을 주목하였습니다. 데이터셋 큐레이션을 위해서는, 기준이 명확히 필요할 것이고, 그 과정에서 고려할 사항을 생각해보며 진로를 고민하게 되었습니다.
사용자 피드백
피드백이 늘 중요하다고 생각해왔고, AI도 그렇다고 생각했습니다. 본 도서가 제시한 피드백 종류가 좀 흥미로운 것은, 무심코 사용한 프롬프트가 일종의 피드백이 된다는 점이었습니다.
"내 말은 이렇게 하면 좋겠는데, 이게 진짜 원하는 거야." 이런 느낌의 프롬프팅 과정 조차 하나의 피드백이 된다는 것이고, 응답을 중간에 멈추거나 새로운 채팅으로 넘어가서 동일한 질문을 하는 경우도 "조기 종료"라는 이름으로 피드백이 될 수 있다는 것입니다.
예시로, 다음처럼 침대에 누워 쉬는 사람을 그려달라고 요청했습니다. 답변을 해주지 않아서 이 채팅창에서 대화를 종료했습니다.
이미지 없이 답변해서 조기 종료
다른 이미지 생성을 한 기록(컨텍스트)가 있는 채팅에서 실행하여 결과를 얻어냈습니다.
위 과정은 생각해보면 참 당연한 대화인데, 이를 하나의 사용자 피드백이자, "독점적으로 수집한 사용자 데이터"로 본다는 점이 새로웠습니다. 이러한 데이터를 수집하고 있다면, 이것을 바탕으로 AI 답변을 개선할 방향을 찾을 수 있겠다고 보았습니다.
피드백을 공개/비공개로 나누어 다룬 점도 생각해볼 여지가 많았습니다. 가령, 비공개 피드백을 적용하면, '좋아요'라는 피드백 수를 노출하지 않았을 때, 더 솔직한 답변이 나올 수 있으니, 더 많은 '좋아요'를 받았다는 사례도 있지만, 모르는 사람이 볼 때는, 어느 게시글이 좋아요가 많은 것인지 모르니 아예 접근하지 못할 수 있습니다.
관련해서 퇴화 피드백 루프는 좀 양극화 현상처럼 느꼈습니다. 부자는 더욱 부자가 되고, 가난한 사람은 가난해지는 느낌으로 받아들였습니다. 좋아요가 많고 인기 있는 영상은, 계속해서 더 많이 노출되고 인기를 얻습니다. "노출"이 많이 될 수 있는 구조인 것이죠. 반면 신규 영상이 새롭게 노출이 많이 될 확률은 더 낮아집니다. 과거에도 "노출 편향, 필터 버블" 과제라고 불러왔고, 도메인은 다르지만, 클라우드에서 말하는 콜드 스타트 문제와 비슷해보였습니다.
이 실험에서 싫어요 버튼은 그대로 표시되지만, 싫어요 수는 표시되지 않았습니다. 따라서 동영상의 싫어요 수를 늘리기 위해 싫어요 버튼을 표적으로 삼는 경향이 줄었습니다. 즉, 실험 데이터로 부터 싫어요 공격 행위가 줄었다는 점을 확인할 수 있었습니다. 또한 소규모 및 신규 크리에이터로부터 자신이 부당하게 이러한 행위의 표적이 되었다는 신고가 접수되었는데, 실험 결과 소규모 채널에서 이러한 공격이 발생하는 비율이 더 높다는 사실을 확인했습니다.
소규모 채널에서 많은 싫테(싫어요 테러)를 당하는 경우가 많았다고 하죠. 싫어요 수가 많은 영상이 되어버린 소규모 채널을 사람들이 많이 안보게 되면, 결국 앞서 말씀드린 것처럼 채널 규모에 따른 양극화가 심해질 수도 있는 노릇입니다.
이런 저런 생각을 가득한 서평이 되었는데, 요약하면 데이터셋 큐레이션과 사용자 피드백에 대한 내용이 주로 기억에 남았습니다. 앞에 AI 엔지니어링 내용은 용어를 이해하는 과정이 필요해서 반복해서 보면 좋겠고, 그 외에는 제가 떠오른 생각 위주로 정리해봤습니다.