인공지능 제품 매니저로서, 기계학습과 딥러닝 중 어떤 접근 방식을 선택하는지는 매우 중요한 결정입니다. 이 선택은 구축하려는 인공지능 서비스에 큰 영향을 미칩니다. 이 글을 통해 기계학습과 딥러닝 선택시 고려해야 하는 점에 대해서 이야기해보겠습니다.
첫번째 고려 사항은 각자가 가진 데이터의 양입니다. 상상해보면, 충분한 데이터가 있는 경우 딥러닝은 기계학습보다 훨씬 뛰어날 수 있습니다. 하지만, 데이터가 제한적이라면 두 방법 모두 효과적일 수 있습니다. 이때 모형 선택을 판단하기 위해 추가적으로 고려해 볼 수 있는 부분은 기업 내에서 보유하고 있는 하드웨어 스펙 입니다. 기계학습은 대부분의 CPU에서 학습 및 추론을 할 수 있지만, 모델의 크기가 큰 딥러닝은 고가의 GPU 장비가 필요할 수 있습니다.
두번째 고려 사항은 모델 학습 및 (최대) 추론 시간입니다. 일반적으로 기계학습 모델의 훈련 및 추론 시간이 딥러닝 모델보다 적게 소요됩니다. 서비스 목적에 따라서 추론시간이 중요할 수도있고 비교적 덜 중요할 수도 있습니다. 인공지능 제품 매니저는 GPU를 사용하여 학습 및 추론 시간을 줄이는 것이 서비스 출시를 위해 중요한 부분인지 여부를 빠르게 판단해야 합니다. 특히, 모델의 추론 시간은 서비스의 최대 응답 시간과도 직접적으로 관련있는 부분이기 때문에 다양한 관점으로 충분히 따져봐야 합니다. 개발자 분들과 논의하다보면 모형의 서빙 개발 과정에서 엔지니어링 측면의 기술 개선으로 극복할 수 있는 부분도 있습니다.
세번째 고려 사항은 모델 훈련 시간과 입력 데이터의 처리입니다. 일반적으로 기계학습 모델의 훈련 시간이 딥러닝 모델보다 적게 소요됩니다. 기계학습 모델은 입력 변수 선택을 위해 도메인 전문 지식에 의존하는 반면, 딥러닝은 도메인 지식이 크게 필요하지 않습니다. 특히 금융권 신용평가 모델의 경우 리스크 전문가가 변수 하나하나에 대해서 꼼꼼하게 검토합니다. 딥러닝은 모든 변수를 다 입력 변수로 사용해도 좋은 성능을 보일 수 있습니다.
네번째 고려사항은 모델의 "설명 가능성"입니다. 딥러닝의 "블랙 박스" 특성 때문에 출력값이 어떻게 산출되었는지 이해하기 어렵습니다. 설명 가능성은 인공지능을 활용한 의사 결정 과정이 투명해야 하는 경우, 특히 인공지능의 잘못된 판단으로 금융거래에 제한이 걸리거나 소외된 사람들이 발생할 가능성이 있다면 더욱 중요하게 고려해야 하는 부분입니다. 금융 분야에서는 "금융분야 인공지능(AI) 가이드라인"을 통해서 설명 가능한 인공지능 모델을 강조하고 있습니다.
모델의 설명가능성과 복잡도는 상충관계(trade-off)에 있기 때문에 로지스틱 회귀모형 등 복잡도가 낮은 기계학습 모형을 사용하는 경우에는 모델 자체가 설명가능하지만, 다중공선성으로 인하여 변수간 상관관계가 강한 변수를 제외하고 모델을 개발해야 하기 때문에 사용할 수 있는 변수가 제한적입니다.
필자는 이러한 점을 극복하기 위해 "2단계 신용평가 기술을 개발"하여 국제학술지에 게제 했으며 이러한 기술이 실제 신용평가에 적용될 수 있는 기반을 마련했습니다. 2단계 신용평가 기술을 통해서 모델의 복잡도와 설명가능성 간의 상충관계를 극복할 수 있었으며 신용평가 모형 개발 분야에서 충분히 많은 변수를 활용할 수 있으면서도 설명가능한 모델을 개발하는데 기여할 수 있었습니다.
'AI & Data PM > 인공지능과 데이터 제품매니저' 카테고리의 다른 글
인공지능 제품 개발에서 사용자 경험의 중요성 (0) | 2023.11.25 |
---|---|
지도학습, 비지도학습, 강화학습에 대한 개념잡기 (0) | 2023.11.20 |
딥러닝이란? (0) | 2023.11.19 |
기계학습이란? (0) | 2023.11.19 |
전통적인 규칙 알고리즘과 인공지능에 대해서 (0) | 2023.11.19 |