Upstage

View Original

‘Layout Analyzer’ 를 소개합니다.

2023/12/14   |  3 mins

Layout Analyzer 에 대해 더 알고싶으시다면 업데이트 알림을 받아보세요!

See this form in the original post

우리가 문서를 읽을 때에는 어떤 부분이 제목인지, 표는 어떻게 읽어야하는지, 이미지 아래에 작게 들어간 글자는 캡션이라고 이해하는 것 등 많은 부분에 대해 노력을 하지 않아도 너무나 자연스럽게 이를 인식할 수 있는데요. 하지만 기존 OCR 기술은 단순히 글자만 인식할 뿐, 문서에 대해 자동으로 이해하고 각 글자들이 어떤 맥락에서 배치되어 있는지는 전혀 읽어내지 못했습니다.

단순한 글자 인식을 넘어 문서 구조를 자동으로 이해하고 손쉽게 추출하도록 설계된 강력한 API인 Upstage Layout Analyzer의 기능을 소개합니다. Layout Analyzer는 단락, 표, 그림, 주석, 수식, 머리글, 바닥글 등의 요소를 추출하여 문서의 구조를 파악하며, 문맥 순서에 맞게 요소들을 배열해 문서를 HTML 형식으로 최종 변환합니다. 문서의 구조를 파악하는 Document AI 기술이 어떻게 여러분의 업무를 도울 수 있을지 기존 OCR과 비교하며 설명해 드리겠습니다.

Layout Analyzer의 강점을 크게 세 가지로 추리자면 문서에서 요소 검출하기, 문서의 문맥에 맞는 순서 읽기, 문단 간 관계 인식 ( 이미지-캡션 / 표-캡션 )이 가능하다는 점입니다.


문서에서 요소를 검출하기(Element detection)

Header(문서에서 반복되는 상단 글자), Footer(문서에서 반복되는 하단 글자), Paragraph, Caption(이미지, 테이블 등의 캡션), Table(표 인식), Image(이미지, 그래프) 등을 인식하여 따로 저장하는 것도 가능합니다. 각각의 요소를 알고 텍스트를 검출할 수 있기 때문에 데이터를 깔끔하게 추출할 수 있는 것이 특징입니다. 특히 표, 차트가 다단에 같이 존재하는 경우 이를 한 줄로 인식하여 제대로 된 데이터를 추출하기가 어려운데, Layout Analyzer를 활용하면 추출이 한층 쉬워집니다.

또한, 문서 구조를 인식한 결과를 HTML 코드로 다운로드 받으실 수 있습니다. 어떤 문서라도 Layout Analyzer를 거치면 HTML 코드로 변환이 가능합니다. 요소 단위로 HTML 코드를 반환할 수 있기 때문에 단위별로 수정할 수도 있습니다. 나아가서 글자 크기도 다르게 인식할 수 있기 때문에 해당 크기의 요소에 태그를 달고 일괄적으로 수정할 수도 있습니다.

글자 크기도 font-size 요소로 구분이 가능하기 때문에 문서에서 큰 글자와 작은 글자를 구분해서 DB화 할 수 있을 뿐만 아니라, 글자 크기도 숫자로 저장 가능합니다. 여러분의 문서를 단순 텍스트 추출을 한 데이터베이스가 아닌 시각적 위계를 같이 담고 있는 데이터베이스로 만들어 보세요.

문맥 기반 순서 정렬 (Context-aware serialization)

(인보이스 이미지 출처: invoicehome.com)

Upstage Layout Analyzer는 마치 사람이 문서를 인식하듯이 문맥에 맞게 글자를 읽는 순서대로 데이터를 추출할 수 있습니다. 기존 OCR은 문서의 구조와 관계없이 텍스트만을 인식하여 정보 단위상 한 줄로 읽으면 안되는 글도 한 줄로 읽어내곤 했는데요. 문서 구조를 분석하고 정보의 덩어리를 인식하는 Layout Analyzer 기능은 텍스트 추출 후 적용해야했던 복잡한 데이터 전처리 작업들을 생략할 수 있습니다.


요소 간 관계 추출 (Relation extraction)

Layout Analyzer는 요소 간 관계를 추출하며, 특히 표와 캡션, 그리고 그림과 캡션 사이의 관계를 탐지합니다. 관계를 탐지한다는 것은 표나 그림의 캡션이 상호참조되어, 표를 인식하면 해당 표에 대한 설명이 캡션으로 라벨링 되어 있고, 캡션을 지정하면 그에 대한 표를 바로 렌더링해서 볼 수 있다는 것을 의미합니다. 이러한 장점 덕분에 텍스트만 추출하더라도 전체 문서의 맥락을 이해하기 쉽습니다.

Layout Analyzer 활용 방법

OCR의 한계를 뛰어넘어, 더욱 유용하게 이 기술을 활용할 수 있는 방법 몇 가지도 소개합니다.



기업용 LLM 개발에 활용

기업용 LLM(Large Language Model)을 구축할 때에는 우리 회사가 보유하고 있는 데이터를 학습하여 지식의 베이스를 잘 만들어주는 것도 중요합니다. LLM에 넣을 데이터에는 텍스트만 있는 것이 아니라 그동안 회사 내부에 쌓인 다양한 형식의 보고서, 표, 이메일 등 형식이 다양한 문서들이 80% 이상을 차지할텐데요. 이 다양한 형식의 문서들을 디지털 자산화할 때 Layout Analyzer를 활용하면 더 풍부한 정보의 데이터를 얻게 됩니다. LLM 개발 및 활용을 위한 디지털 자산화는 문서 구조 분석 → 마크다운화 → 벡터화 → 쿼리 임베딩 및 LLM 추론의 과정을 거치게 됩니다. LLM 개발 및 활용을 위한 디지털 자산화 과정에 대해서는 여기에서 더 자세히 알아보세요



생성형 AI와 결합하여 활용

생성형 AI가 화두였던 올 2023년, 모두가 어떻게 하면 이를 더 효율적으로 활용할 수 있을지 고민하고 노력하고 있을 것입니다. 생성형 AI는 질문에 대한 답을 꽤나 체계적이고 창의적으로 해줍니다. 하지만 생성형 AI에게 텍스트로 질문하는 게 아닌 여러분이 갖고 계신 표, 그래프, 문단의 종속관계 등 복잡한 시각적 정보가 포함된 문서에 대한 답은 제대로 듣기가 어렵습니다. OCR과 생성형 AI를 결합해서 쓰더라도 수동으로 작업해야하는 부분이나 문서를 제대로 이해하지 못해 제대로 된 답변을 받지 못했던 경험을 이제 바꿔드리겠습니다. 문서 요약, 재구성, 보고서 작성, 더 복잡한 데이터에 대한 질문 답변 등 Layout Analyzer 기능과 함께 여러분의 문서를 또 다른 지식으로 쉽게 재생산해보세요.



업무 자동화

Layout Analyzer를 통해 문서의 요소를 자동으로 인식하게 되면 수많은 반복 작업들을 덜 수 있습니다. 다양한 형식의 인보이스에서 수신자 주소만 한 번에 추출해낼 수도 있고 다양한 형식을 가진 문서들의 대주제 및 소주제를 한 번에 자동으로 뽑아내 쉽게 정리할 수도 있습니다. 매일 신문에 나오는 중요 경제 뉴스들도 크롤링 후 더 쉽고 간편하게 데이터화하여 보고서로 만드는 것도 가능합니다.




업데이트 알림을 신청해보세요

우리 회사만의 지식 베이스를 만들어 업무를 효율화하고 비즈니스 가치를 높일 수 있는 방법이 궁금하시다면 Layout Analyzer의 업데이트 알림을 신청해 보세요. 새로운 기술을 활용해 여러분의 제품, 서비스를 혁신적으로 개선할 수 있는 다양한 유즈 케이스를 소개해 드리겠습니다.

📑 Layout Analyzer

Layout Analyzer 업데이트 알림 신청하기

기존 OCR의 한계를 뛰어넘어 문서 구조를 자동으로 이해하는 Layout Analyzer의 업데이트 소식을 가장 빠르게 만나 보세요.


←블로그 돌아가기