[학생수상실적] 2022 미래에셋증권 빅데이터 페스티벌, 성균관대학교 통계학과 러닝머신팀 대상 수상
- 통계학과
- 조회수5509
- 2023-04-12
성균관대학교 통계학과 장이준, 박지민, 조수미 학생으로 구성된 러닝머신 팀은 ‘Table Extraction model 및 이미지 처리 기반 ESG 데이터 수집 자동화와 ESG 등급 평가모델 개발’이라는 아이디어를 구현해 ‘미래에셋증권 2022 빅데이터 페스티벌’에서 대상을 수상했다.
각 기업의 ESG 보고서에서 도표를 이미지 추출해 이미지 처리 모델을 적용하는 방식으로 데이터를 수집하는 독특한 방식이 눈길을 모았던 러닝머신 팀은, 높은 완성도와 깔끔한 발표로 눈길을 모았다. 대상을 수상한 러닝머신 팀에게 이번 빅데이터 페스티벌에 대해 물어봤다.
▶이번 프로젝트를 진행하면서 데이터 수집 자동화가 어려웠다고 했는데, 이유는 무엇인가.
각 기업에 대한 ESG 등급 예측을 위해서는 E, S, G 각 부문에 대한 데이터 수집이 필수적이었다. 기존 ESG 데이터 수집 방법은 대부분 수기로 진행됐는데, 해당 방식은 과도한 인력과 비용이 요구되기 때문에 수집 과정의 자동화가 이번 분석의 핵심이었다.
다만 ESG라는 개념 자체가 등장한 지 오래되지 않아 각 기업의 ESG 데이터를 모아서 제공하는 곳을 찾을 수 없었다., 따라서 다양한 소스로부터 데이터를 수집하기로 결정했는데 이 과정에서 수많은 시행착오를 겪었다. 일례로, 수집하고자 했던 파생변수인 산업재해율, 임직원 봉사시간 등과 같은 데이터는 DART와 같은 소스에서는 찾아볼 수 없어 기사 데이터로부터 해당 데이터를 추출하려 했지만, 기사 데이터의 특성상 모든 기업 그리고 모든 연도에 대한 데이터가 존재한다는 보장이 없었다.
이에 컴퓨터비전 기술을 이용해 아예 ESG 보고서로부터 표 데이터를 자동적으로 추출하는 아이디어를 도출했다. 이렇게 어떤 소스로부터 데이터를 수집할 수 있는지, 그리고 해당 수집 과정을 자동화할 수 있는지 확인하고 검증하는 과정이 이번 공모전 진행에서 가장 어려운 부분이었다.
▶구글 클라우드의 버텍스 AI와 빅쿼리를 어떤 부분에 적용했는가.
공모전의 핵심 관건이었던 데이터 수집의 자동화를 위해 버텍스 AI에서 데이터 수집(크롤링, API, Table extraction 등) 코드를 작성한 후 쿼리문을 모듈화해 빅쿼리에 자동으로 저장하도록 파이프라인을 작성하는 데 사용했다. 이후 데이터 전처리, 모델링 코드 모두 버텍스 AI를 사용해 진행했다.
▶다른 팀에서는 사용하지 않는 이미지 처리 모델을 사용했는데, 어려움은 없었나.
이미지 처리 모델을 사용하기 위해 해당 분야의 SOTA(State-Of-The-Art) 모델들을 모두 찾아보고, 논문에 적힌 성능 외에도 실제 성능, 그리고 최적의 실행시간을 프로파일링하기 위해 테스팅을 진행했던 과정이 가장 어려웠다.
아쉬운 점이 있다면, 실제 학습데이터를 사용해 이미지 모델을 새로 학습시키려 했지만 시간과 학습 자원의 부족으로 사전학습된 모델을 사용하는 것에 그쳤다는 점이다.
▶멘토링 과정에서 어떤 도움을 받았나.
우리 팀이 ESG 분야의 전문가도 아니고, 제대로 된 데이터 공모전 출전이 이번이 처음이다 보니 어떤 방식으로 심사위원에게 우리의 분석 과정을 전달해야 하는지에 대한 궁금증이 많았다. 멘토링 과정에서 들은 “발표에서는 무작정 분석한 모든 내용을 넣으려고 하기 보다는 스토리텔링이 중요하다”는 얘기가 전체적인 발표 흐름을 구성하는 데 정말 큰 도움이 됐다.
그리고 현업에서 일하고 있는 멘토분 입장에서 우리 팀의 분석과 활용방안에 대한 직설적인 피드백들을 받을 수 있었고, 이를 기반으로 좋은 결과들을 얻을 수 있었다. 피드백 이외에도 현업과 관련된 많은 유익한 얘기를 들었던 것이 고마웠고, 또 기억에 남는다.
▶이번 공모전을 통해 가장 크게 배운 것은 무엇인가.
데이터 분석 경험, 데이터 파이프라인 작성 경험, 등 모든 것들이 중요하다고 생각되지만 이번 공모전으로부터 가장 크게 배운 것은 바로 우리의 데이터 분석이 ‘사장되지’ 않게 하는 법이었다. 이는 사실 수많은 데이터 분석가들이 마음 한켠에 품고 있는 생각일 것이다.
연구목적이 아닌 이상, 데이터 분석 자체가 아무리 재미있어도 결국 시장 어딘가에서 사용되지 않는다면, 사실상 자기계발을 위한 데이터 분석에 지나지 않을 것이다. 이런 생각에서 과연 우리가 개발한 ESG 등급 평가모델이 어느 곳에 적용될 수 있는지에 대한 고민을 지속적으로 이어나갔고, 결국은 시장의 요구를 반영한 ‘ESG 데이터 종합 플랫폼’이라는 서비스를 고안해낼 수 있었다.
[출처: 전자신문인터넷 | 원문: https://www.etnews.com/20221125000202]
- 다음글
- 다음글이 없습니다.