top of page

InsightLog

작성자 사진hello

[Quryon Question]데이터 클렌징을 위해 큐리온의 인공지능이 하는일은?

최종 수정일: 2020년 3월 3일




데이터를 최대로 활용하기 위해 중요한 데이터 클렌징(Data Cleansing)!


요즘 비즈니스에서 데이터를 활용하는 일이 많아지고 있고, 더욱이 은행, 보험, 쇼핑, 통신과 같이 데이터 집약적인 분야에서는 데이터 오류 관리에 대한 중요성이 날로 높아지고 있습니다.


수백만건의 데이터 속에서 부정확하고, 오류가 있고, 쓸모가 없으며 반복되는 데이터들을 제거하고, 편집하는 일 ! 이것을 데이터 오류 관리, 즉 데이터 클렌징이라고 합니다.


수백, 수천만건의 데이터를 수동으로 처리하다 보면, 사람의 손을 거치기 때문에 필연적으로 오류가 발생하기 쉽습니다. 따라서 이미 데이터 분석 솔루션을 활용하고 있는 회사에서도 머신러닝 알고리즘을 활용하여, 시스템적으로 데이터 테이블을 체계적으로 점검하고 결함을 찾아내는 데이터 클렌징 도구가 필요하게 된 것입니다.


[큐리온의 데이터 클렌징]


큐리온 역시 데이터 클렌징 도구로써 활용되어지고 있습니다!

어떻게 활용되어 질까요?


모든 회사들에는 고객 데이터들이 있습니다. 고객들을 관리하기 위해 작성된 데이터들이죠. 고객명, 주소, 전화번호, 비고등의 내용이 작성되며, 글로벌 고객이라고 했을 때는 축적된 양은 수백 수천만 건에 다다를 수 있습니다.


헌데, 사람들이 초기에 데이터를 구축할 당시 오타가 있다면 어떨까요?

같은 고객명인데 띄워 쓰기를 다르게 했다면요?

혹은 고객명 뒤에 주식회사를 붙일 때와 붙이지 않을 때가 있다면요?

중복되는 데이터가 많다면요?


이런 데이터들의 오류를 잡을 때, 사람이 일일이 수작업으로 할 수 있을까요?

수백만 수천만건의 데이터라면 너무 방대한 수작업이 들어가며, 또 다른 데이터 오류를 불러올 수 있겠지요. 데이터 클렌징을 위해 큐리온의 인공지능이 하는일은 무엇일까요?


[큐리온 기술]


큐리온은, 대용량 matrix multiplication 알고리즘을 적용하여, 데이터를 검증하고 중복 데이터 정리, 주소 정리를 통해 효율적인 시스템 통합 및 의사결정을 도와줍니다.


고객 데이터 베이스가 있을 때, semantic category learning 기술을 통해 token의 정보성(이것이 정보인지, 아닌지)에 대한 판단을 통계적인 수치를 통한 확률로 제시합니다. 또한 대용량 matrix multiplication을 통해 유사도를 추출하고, 클러스터링(군집화 기술)을 통해 데이터 클렌징을 수행합니다.


여기서 데이터에 대한 정보성 유무, 유사도에 대한 판단은 어떻게 할 수 있을까요?


[정보성에 대한 판단]


사람들은 정보성/비정보성에 대한 구분을 분절적인 카테고리화, 이분법으로 구분하는 경우가 많습니다. 하지만 언어통계적으로는 정보냐 아니냐, 이것이 중요하냐 중요하지 않느냐에 대한 판단은 이분법적인 것이 아니라, 연속적인 통계값으로 표현이 가능합니다. 따라서, 데이터의 값을 비즈니스에 따라 적절하게 활용할 수 있도록 제시합니다.


[같다/다르다]


수많은 데이터들이 같은지 다른지에 대해서도 마찬가지입니다. 이분법적으로 구분하여 정리하다보면, 실제로 많은 데이터들이 소실됩니다. 따라서 연속적으로 유사한 정도로 표기하고, 이 안에서 결정할 수 있도록 도와줍니다.

결국, 이 과정을 통해서 데이터에 대한 정확성(오류성), 정보성(비정보성), 유사성(비유사성)을 통계적인 수치로 표현하여 판단하고, 오류가 있고, 중복적이며, 정보성이 없는 것들을 추출하여 걸러낼 수 있습니다.


[데이터 클렌징에 쓰인 의미추출/분석 기술이 확장된다면?]


ex) AAA International,Inc (546) 127-7324

AAA Technologies Inc (546) 127-2400

ex2) B Hotel LA

B Hotel Chicago


예를 들어, 데이터 분석을 확장한다면, B hotel 전체의 상황을 파악하거나, B hotel 지역별 차이들을 파악할 수 있으며, 다른 호텔이나, 특정 지역내의 다른 호텔과 비교분석이 가능합니다. 결국 의미 추출/분석 기술을 통해 상위 의미단위로 확장되면서, 비즈니스에 유용한 또 다른 정보들을 파악할 수 있습니다.


이는 큐리온의 다면적 사전구성에 대한 이야기인데요.

‘정보는 하나의 관점으로만 분류, 요약, 파악할 수 없습니다.’


큐리온의 데이터 클렌징 기술을 활용하여, 데이터의 오류를 분석해내고, 이를 효율적으로 관리하세요. 그리고 비즈니스의 적재적소에 활용하시길 바랍니다.


데이터 클렌징 기술에 대해서 더 궁금하신 부분이 있으시다면, 아래 주소로 문의주시기 바랍니다.

감사드립니다 !

hello@quryon.com


bottom of page