업무를 할 때 도움이 많이 되는 AI를 만들어보고 싶다는 비전이 세팅되어있음 이런 비전이 세팅된 이유 B2B 회사이다보니 기업의 고민, 문제를 해결하는 것들 많이 해옴, 잘해온걸 잘살리고 싶고 밸류가 있겠다 싶었음 그러면 이게 지향하는 바가 뭐임?
대부분의 업무가 깔때기 과정을 거친다고 생각 AGI for Work이 지향하는건 모든 단계에서 도움되는 AI를 만들겠다 1단계는 기술의 coverage가 넓지만, 아래로 갈수록 bottleneck이 생김
일단 흩어진 정보에서 정확한 정보 인식하고 추출하는것에서 1차 보틀넥 여기서 쓰이는게 Document AI
2번째 보틀넥을 LLM이 해결해주길 기대함
Document AI가 지향하는 것 ; 기업 내부에 많은 데이터들이 있는데, 이걸 AI 사용하려면 digitalization을 해야함 AI가 이해할 수 있는 형태로 바꿔줘야 하니까, 근데 기업들 보면 갈길이 멀다 이걸 도와주는 솔루션이 Document AI ; 금융권이나 보험사 고객이 많음 고객사의 요구사항은 사람의 정확도보다 높아야 하는 것 이 비즈니스 밸류가 인건비 정도로만 느껴질 수 있음
근데 이게 그 다음 단계로 넘어갈 수 있는 발판 마련 10년 넘게 쌓여있는 데이터 digitalization을 해서 Document AI 사용하고 그 다음 단계는 사람이 해서 프로덕트를 만들었음
비정형 데이터를 AI가 이해할 수 있도록 정형 데이터로 바꿔주는게 Document AI
그걸 받아서 분석 및 업무 수행하는건 LLM 사업적으로나 기술적으로 LLM의 가장 큰 의미는 여러 task를 모두 수행한다는 것
어떤 방향성을 갖고 LLM을 개발하느냐, 범용 LLM으로는 풀릴 수 있는 문제가 제한적 보틀낵을 해결하려면 coverage가 넓어져야하는데 범용을 만들면, 고객들이 원하는 정확도가 안나오는 경우가 많음 고객의 데이터를 가지고 이 모델을 한번더 업그레이드하는것(파인튜닝이든, 프롬프트 엔지니어링이든, 컨티뉴어스 프리트레이닝이든) 범용을 좀 잘만들어야, 고객 맞춤형 LLM 만들 때 효율적으로 할 수 있다는게 업스테이지 입장 - 내부 가이드라인이 GPT 3.5 터보 Continuous Pretraining - 새로운 지식을 넣을 때 이 방법이 가장 효과적 법률 도메인의 지식을 넣어주고 싶다(Domain-Incremental)
그 다음 하는게 파인튜닝 - 태스크 파인튜닝(그 태스크만 잘하게 하는 것) 성능을 좀더 뾰족하게 만드는 방법, 컨티뉴어스 프리트레인보다 훨씬 저렴하고 대신 그 태스크만 거의 잘한다고 보면 된다 솔라 미니 파인튜닝해보니까 그 태스크만큼은 gpt4보다 잘하게 만들 수 있다 솔라는 파인튜닝이 잘된다 기억해주세요
모든 언어 커버하는건 제약이 있어서 일단 영어 일본어 한국어
한국 B2B 과제에서 RAG는 필수 기자들 대상으로 하는 검색 시스템 구축한 적 있음 - 뉴스 데이터 기반으로 답변 RAG 사용하려면 벡터DB(아니면 그래프DB) 형태로 데이터가 있어야함 그때 임베딩 모델도 사용됨(얘도 솔라 미니 파인튜닝한거) Layout Analysis는 비정형 데이터에서 메타 데이터 뽑아주는거 문서 구조 정보를 파악해서 일종의 html 형태로 바꿔줄 수 있음 이런 모듈은 여러 업체에서 많이 만들고 있는데 내부적으로는 우리꺼가 제일 좋더라 이게 RAG 파이프라인 전체에 큰 영향을 미치다보니 지속적으로 성능 업데이트중임 임베딩 모델은 한국어 기준 성능 갭이 가장 크다, 사용하시면 실망 안하실 것
범용 솔라 모델 (범용 솔라 모델을 파인튜닝한)임베딩 모델 Layout Analysis Document AI 이렇게 4가지 API 제공하고 잇다