-
2022 미래에셋증권 빅데이터 페스티벌, 성균관대학교 통계학과 러닝머신팀 대상 수상
2023-04-12성균관대학교 통계학과 장이준, 박지민, 조수미 학생으로 구성된 러닝머신 팀은 ‘Table Extraction model 및 이미지 처리 기반 ESG 데이터 수집 자동화와 ESG 등급 평가모델 개발’이라는 아이디어를 구현해 ‘미래에셋증권 2022 빅데이터 페스티벌’에서 대상을 수상했다. 각 기업의 ESG 보고서에서 도표를 이미지 추출해 이미지 처리 모델을 적용하는 방식으로 데이터를 수집하는 독특한 방식이 눈길을 모았던 러닝머신 팀은, 높은 완성도와 깔끔한 발표로 눈길을 모았다. 대상을 수상한 러닝머신 팀에게 이번 빅데이터 페스티벌에 대해 물어봤다. ▶이번 프로젝트를 진행하면서 데이터 수집 자동화가 어려웠다고 했는데, 이유는 무엇인가. 각 기업에 대한 ESG 등급 예측을 위해서는 E, S, G 각 부문에 대한 데이터 수집이 필수적이었다. 기존 ESG 데이터 수집 방법은 대부분 수기로 진행됐는데, 해당 방식은 과도한 인력과 비용이 요구되기 때문에 수집 과정의 자동화가 이번 분석의 핵심이었다. 다만 ESG라는 개념 자체가 등장한 지 오래되지 않아 각 기업의 ESG 데이터를 모아서 제공하는 곳을 찾을 수 없었다., 따라서 다양한 소스로부터 데이터를 수집하기로 결정했는데 이 과정에서 수많은 시행착오를 겪었다. 일례로, 수집하고자 했던 파생변수인 산업재해율, 임직원 봉사시간 등과 같은 데이터는 DART와 같은 소스에서는 찾아볼 수 없어 기사 데이터로부터 해당 데이터를 추출하려 했지만, 기사 데이터의 특성상 모든 기업 그리고 모든 연도에 대한 데이터가 존재한다는 보장이 없었다. 이에 컴퓨터비전 기술을 이용해 아예 ESG 보고서로부터 표 데이터를 자동적으로 추출하는 아이디어를 도출했다. 이렇게 어떤 소스로부터 데이터를 수집할 수 있는지, 그리고 해당 수집 과정을 자동화할 수 있는지 확인하고 검증하는 과정이 이번 공모전 진행에서 가장 어려운 부분이었다. ▶구글 클라우드의 버텍스 AI와 빅쿼리를 어떤 부분에 적용했는가. 공모전의 핵심 관건이었던 데이터 수집의 자동화를 위해 버텍스 AI에서 데이터 수집(크롤링, API, Table extraction 등) 코드를 작성한 후 쿼리문을 모듈화해 빅쿼리에 자동으로 저장하도록 파이프라인을 작성하는 데 사용했다. 이후 데이터 전처리, 모델링 코드 모두 버텍스 AI를 사용해 진행했다. ▶다른 팀에서는 사용하지 않는 이미지 처리 모델을 사용했는데, 어려움은 없었나. 이미지 처리 모델을 사용하기 위해 해당 분야의 SOTA(State-Of-The-Art) 모델들을 모두 찾아보고, 논문에 적힌 성능 외에도 실제 성능, 그리고 최적의 실행시간을 프로파일링하기 위해 테스팅을 진행했던 과정이 가장 어려웠다. 아쉬운 점이 있다면, 실제 학습데이터를 사용해 이미지 모델을 새로 학습시키려 했지만 시간과 학습 자원의 부족으로 사전학습된 모델을 사용하는 것에 그쳤다는 점이다. ▶멘토링 과정에서 어떤 도움을 받았나. 우리 팀이 ESG 분야의 전문가도 아니고, 제대로 된 데이터 공모전 출전이 이번이 처음이다 보니 어떤 방식으로 심사위원에게 우리의 분석 과정을 전달해야 하는지에 대한 궁금증이 많았다. 멘토링 과정에서 들은 “발표에서는 무작정 분석한 모든 내용을 넣으려고 하기 보다는 스토리텔링이 중요하다”는 얘기가 전체적인 발표 흐름을 구성하는 데 정말 큰 도움이 됐다. 그리고 현업에서 일하고 있는 멘토분 입장에서 우리 팀의 분석과 활용방안에 대한 직설적인 피드백들을 받을 수 있었고, 이를 기반으로 좋은 결과들을 얻을 수 있었다. 피드백 이외에도 현업과 관련된 많은 유익한 얘기를 들었던 것이 고마웠고, 또 기억에 남는다. ▶이번 공모전을 통해 가장 크게 배운 것은 무엇인가. 데이터 분석 경험, 데이터 파이프라인 작성 경험, 등 모든 것들이 중요하다고 생각되지만 이번 공모전으로부터 가장 크게 배운 것은 바로 우리의 데이터 분석이 ‘사장되지’ 않게 하는 법이었다. 이는 사실 수많은 데이터 분석가들이 마음 한켠에 품고 있는 생각일 것이다. 연구목적이 아닌 이상, 데이터 분석 자체가 아무리 재미있어도 결국 시장 어딘가에서 사용되지 않는다면, 사실상 자기계발을 위한 데이터 분석에 지나지 않을 것이다. 이런 생각에서 과연 우리가 개발한 ESG 등급 평가모델이 어느 곳에 적용될 수 있는지에 대한 고민을 지속적으로 이어나갔고, 결국은 시장의 요구를 반영한 ‘ESG 데이터 종합 플랫폼’이라는 서비스를 고안해낼 수 있었다. [출처: 전자신문인터넷 | 원문: https://www.etnews.com/20221125000202]
통계학과 박세영 교수, 고차원 다중오믹스 데이터를 통합한 군집화 (clustering) 방법론 개발
2023-03-06고차원 다중오믹스 데이터를 통합한 군집화 (clustering) 방법론 개발 다중 고차원 데이터를 통합적으로 이용하여 군집화를 수행 할 때 발생할 수 있는 데이터들의 이질성 문제 및 중요도 차이의 반영을 엄밀한 통계 및 머신러닝 방법을 통해 해결하였다. 통계학과 박세영 교수 통계학과 박세영 교수는 최근 게재된 연구에서 고차원 다중오믹스 데이터를 통합적으로 이용하여 효과적인 군집화 (clustering)를 수행하는 새로운 통계적 방법론을 제안하였다. 다중오믹스 분석은 유전체, 전사체, 단백체 등의 다양한 분자 수준에서 생성된 여러 데이터들의 통합적인 분석을 말한다. 최근들어 고성능 유전체 기술의 발전과 정보 처리 능력의 발달로 인해 다양한 유형의 다중오믹스 데이터를 이용한 통합적 분석이 진행되었다. 특히 다중오믹스 데이터를 사용하여 유사한 질병 병인 및 치료 반응을 가진 환자들로 군집화 하는 것은 단일 데이터 유형을 사용하는 것보다 군집화 결과의 정확성을 향상시킬 가능성이 있다. 하지만 이에 대한 엄밀한 통계적 연구는 미비하였다. 대부분의 연구에서는 다중오믹스 데이터의 고차원성과 이질성으로 인한 어려움으로 인해 환자 군집화 시에 여전히 단일 유형의 데이터만 사용하거나 또는 개별 데이터 유형의 군집화 결과를 임의적으로 평균처리하여 결과를 도출하는 방법을 많이 사용하고 있는데 이는 다양한 데이터에 잠재된 중요한 정보의 손실을 발생시킬 수 있다. 이 연구에서는 각각의 고차원 오믹데이터의 유형을 다른 정보의 표현으로 취급함으로써 동일한 환자에서 측정된 여러 데이터 유형에 다른 가중치를 부여한 새로운 스펙트럼 군집화 방법을 제안하였다. 이론적으로는 제안된 군집화 방법이 단일 데이터를 이용한 군집화 방법보다 더 정확한 군집화 결과를 도출 할 수 있다는 것을 증명하였다. 실제 암환자 데이터에 제안된 방법을 적용하여 얻어진 하위클러스터들은 기존의 군집화 방법들보다 더 명확한 생존패턴의 차이를 보이거나 특정 약물에 대한 이질적인 반응을 보여주는 생물학적으로도 의미있는 결과를 얻을 수 있었다. 박세영 교수는 “이번 연구의 성과는 다중 고차원 데이터를 통합적으로 이용하여 군집화를 수행 할 때 발생할 수 있는 데이터들의 이질성 문제 및 중요도 차이의 반영을 엄밀한 통계 및 머신러닝 방법을 통해 해결하였다는 것이다. 또한 본 연구에서 고려한 군집화 방법에만 제한하지 않고 다중 고차원 데이터를 모티브로 하는 다양한 통계 방법에도 아이디어를 확장시킬 수 있을 것으로 기대된다.” 라고 연구의 의의를 설명하였다. 본 연구는 통계학분야 최고의 저널인 Journal of the American Statistical Association에 게재 되었다. ※ 논문명: Integrating multidimensional data for clustering analysis with applications to cancer patient data ※ 논문출처: https://doi.org/10.1080/01621459.2020.1730853
노벨경제학상 수상자 마이런 숄즈 교수, "Future of Finance" 성대명륜(明倫) 강좌
2022-09-02세상을 밝히는 성대명륜(明倫)강좌 개최 - 노벨경제학상 수상학자 등 해외 석학 초청, 한국의 경제·사회 진단 - 해외대학의 저명교수와 콘텐츠를 접목한 미래교육 모델 선도 성균관대학교 교무처, 경제학과 BK21 교육연구단, 그리고 성균노벨상 후보 후원회는 2022년 9월 7일 수요일 오전 10시부터 본교 600주년 기념관 3층 제1회의실에서 성대명륜(明倫) 강좌 노벨경제학상 수상자 마이런 숄즈(Myron Scholes) 교수(Stanford University)의 특강을 개최된다. 성대명륜강좌는 성균관대학의 교시인 인의예지의 가치를 확산하고, 학생들의 인품 함양과 공동체 가치관 교육을 견인하는 명품 특강을 제작하고자 국내외 저명인사를 초청하여 진행해 오고 있으며 일반인에게도 공개하고 있다. 숄즈 교수는 블랙-숄즈-머튼(Black–Scholes-Merton) 모형의 창시자이자, 파생금융상품의 가격결정 이론의 패러다임을 바꾸는 혁신적인 모형을 제안한 공로로 노벨경제학상을 수상하였다. 금번 특강의 주제는 “금융의 미래(The Future of Finance)”이며, 김준영 이사장의 축사로 시작한다. 강연 직후 김성현 경제대학장, 김영한 경제학과 교수, 그리고 본교 경제연구소 선임연구원을 겸직하고 있는 Robert Webb 美 버지니아大 연구석좌교수와 Jonathan Batten 濠 왕립공과대학 교수 (Editor-in-chief, Journal of International Financial Markets, Institutions and Money, SSCI) 등 우리대학 경제학자들이 토론 및 질의응답에 참여한다. 특히, 성대명륜강좌에 참여하는 학부생에게도 질문의 기회가 주어진다. 금번 노벨경제학상 수상자 특강은 우리대학 구성원(학생, 교수, 직원, 동문) 누구나 온라인 Zoom으로 참석이 가능하다. 금번 행사를 총괄 기획한 경제학과 류두진 교수는 “노벨경제학상 수상자 Robert Merton이 2019년 우리 성균관대학교를 방문하여 강연과 국제협력을 논의하였고, 이후 코로나 사태로 중단되었던 노벨경제학상 수상자 특강이 금번 Myron Scholes의 성균명륜강좌 특강으로 다시 시작되었다. 우리 대학은 재무•금융분야에서 가장 유명한 이론인 블랙-숄즈-머튼 모형을 발명한 노벨경제학상 수상자 두분을 모두 초빙하게 되었다(생존해 있는 학자에게만 노벨상을 수여하는 원칙에 따라, 작고하신 Fischer Black 교수님은 수상에서 제외). 해외석학의 특강과 연구협력을 꾸준히 지원할 예정이며, 특히 우리대학 학생들이 활발하게 참여하여 세계적 수준의 연구의 방향에 대하여 영감을 얻기 바란다”고 전하였다. [1차 특강 정보] 1. 일 시: 2022. 9. 7.(수) 10:00~11:30 (90분) 2. 방 식: 온라인/오프라인 하이브리드 특강 (Zoom 실시간 스트리밍) ※ 전용 ZOOM URL https://us02web.zoom.us/j/7766237789?pwd=SDRHZjJWdTdvUjB5OTZiZ1Awbkp6Zz09