본문 바로가기

전체 글31

문서 내 이미지를 함께 활용할 수 있는 멀티모달(Multi-modal) RAG 시스템 만들어보기 2024.05.13 - [🟣 AI & ML] - 검색증강생성(RAG) - LangChain과 PGVector를 이용한 간단한 RAG 시스템 구축해보기 TL;DR이전 포스트에서 소개했던 일반적인 RAG 시스템은 문서의 텍스트만을 추출하여, 생성 모델의 답변에 활용합니다. 하지만, 많은 문서에서는 유용한 정보들이 텍스트가 아닌 이미지로 표현되어 있기도 합니다.이 때, 멀티모달(multi-modal) 모델을 이용하면 자연어로 문서의 이미지에 대한 검색도 수행할 수 있습니다.이번 포스트에서는 OpenAI의 멀티모달 모델, PGVector, Qdrant DB, LlamaIndex 등의 도구를 활용하여 문서의 텍스트와 이미지에 함께 질의할 수 있는 멀티모달 RAG 시스템을 구축해보겠습니다.    먼저, 아래와 같.. 2024. 6. 20.
검색증강생성(RAG) - LangChain과 PGVector를 이용한 간단한 RAG 시스템 구축해보기 TL;DR이번 포스트에서는 벡터 DB 중, pgvector를 이용하여 간단한 RAG 시스템을 구축해봅니다. pgvector는 PostgreSQL에서 확장 기능(extension)으로 사용할 수 있는 오픈소스 벡터 DB 이며, 오픈소스임에도 불구하고 상용 벡터 DB에 준하는 성능을 보여줍니다.LangChain 프레임워크 상에서, PDF 파일을 벡터로 변환하여 pgvector에 저장하고 유사 문서를 검색하는 과정까지 수행해보겠습니다.   *샘플 PDF 파일 링크: https://www.dir.ca.gov/injuredworkerguidebook/InjuredWorkerGuidebook.pdf 먼저, 필요한 라이브러리들을 설치해주어야 합니다. LangChain은 LLM 기반 어플리케이션을 구축하는 데에 널리 .. 2024. 5. 13.
AWS 클라우드 자격증(SAA-C03) 시험 특징 및 시험 후기 들어가며 한동안 AWS 자격증 클라우드 관련 포스트를 올리다가 말았는데, 기출문제를 풀기 바쁘다보니 공부와 블로그 포스트를 병행하기는 어려웠습니다. 어쨌든 최근에 시험을 응시하여, 간단히 시험 특징과 후기 정도를 공유하고 추후 공부 방법 및 요약 노트도 공유하고자 합니다. AWS 자격증 특징 AWS 클라우드와 자격증에 대한 소개는 검색하면 잘 나오니 생략하고, 주요 특징부터 소개하면 다음과 같습니다. 1. AWS 자격증 종류 공식 사이트의 자격증 경로 선택를 참고합시다. 중간에 없어지거나 신설되는 종목도 있으니 신청에 주의하기 바랍니다. 예를 들어, Data Analytics 종목은 이제 신청이 불가합니다. Data Engineer 종목은 새로 신설되는 것 같습니다. Solutions Architect,.. 2024. 4. 23.
Meta, Llama 3 발표: 현존하는 가장 뛰어난 성능의 퍼블릭 LLM TL;DR 한국 기준 4월 19일, Meta 사가 Llama 3 를 발표했다. 대중적인 LLM으로는 ChatGPT의 인지도가 높지만, ChatGPT는 웹 서비스 또는 API를 통해서만 이용 가능하며 모델의 구조나 원본은 공개하지 않고 있다. Llama는 1 버전 출시부터 모델 원본을 오픈소스로 공개하여 큰 파장을 일으켰고, 개발자들은 Llama를 바탕으로 하여 많은 파생 모델을 만들어 이용할 수 있었다. 이번 포스트에서는 이제 막 발표된 Llama 3에 대한 Meta 사의 블로그 포스트를 번역 및 요약하며 어떤 점이 변화되었는지 간단히 알아보도록 하자. * 이해를 돕기 위한 의역이 포함될 수 있습니다. 원문 링크: https://ai.meta.com/blog/meta-llama-3 Takeaways(핵심.. 2024. 4. 21.
LLM이 표(table)를 잘 이해하도록 하자: Chain-of-table: Evolving tables in the reasoning chain for table understanding Chain-of-table: Evolving tables in the reasoning chain for table understanding Chain-of-table: 테이블 이해를 위한 추론 체인(reasoning chain)에서 진화하는 테이블 2024-03-11 by Zilong Wang, Student Researcher, and Chen-Yu Lee, Research Scientist, Cloud AI Team 원문 링크: https://blog.research.google/2024/03/chain-of-table-evolving-tables-in.html Chain-of-table: Evolving tables in the reasoning chain for table understandin.. 2024. 4. 7.
Postgres가 데이터베이스 시장을 지배하고 있다: Postgres is eating the database world TL;DR 본 포스트에서는, Postgres가 강력한 확장 기능과 오픈 소스의 강점을 살려 데이터베이스 시장을 지배하고 있다는 내용의 'Pigsty' 서비스의 개발자 Vonng이 작성한 아티클을 번역하였다. 원문에서는 여기서 나아가 Postgres가 해결해야 할 과제를 함께 제시하고 그 대안으로 Pigsty의 필요성을 강조하고 있다. 원문 링크: https://medium.com/@fengruohang/postgres-is-eating-the-database-world-157c204dcfc4 Postgres is eating the database world PostgreSQL isn’t just a simple relational database; it’s a data management framewo.. 2024. 3. 19.
ChatGPT에 질문을 해도 반응이 없을 경우 해결 방법 ChatGPT에서 간혹 질문을 해도 답변이 생성되지 않고 멈춰있을 때가 있다. 이 때는 일단, ChatGPT 화면에서 F12 키를 눌러 개발자도구 창에 진입한 후, 상단 메뉴바 '>>(더보기)' 버튼을 눌러 'Application' 메뉴를 클릭한다(크롬 브라우저 기준). 좌측의 Storage 메뉴의 Local storage를 클릭하여 드롭다운을 열고, 나오는 storage들에서 우클릭한 후 Clear 해준다. ChatGPT가 잘 작동하는 지 확인한다. 브라우저의 쿠키를 모두 지우면 해결되기도 하는데, 이 방법이 더 간편해 보인다. 2024. 3. 12.
콜로니 그래프(Colony Graph): 클라우드 서비스를 시각화하기 - 02 2024.03.10 - [🟢 Graph] - 콜로니 그래프(Colony Graph): 클라우드 서비스를 시각화하기 - 01 TL; DR 이전 포스트의 클라우드 시각화에서는, 클라우드 환경 전반에서 프로세스와 그 parent-child 계층 구조를 보여주며 다양한 규모에서 패턴을 탐색했다. 본 포스트에서는, 좀 더 나아가 시간 경과에 따른 프로세스의 변화 양상을 살펴본다. 이러한 변화 양상의 일부 순간을 포착하여 그래프로 표현하는 것을 원저자는 프로세스 스냅샷(process snapshot)이라 언급하고 있다. 원문 링크: https://www.brendangregg.com/ColonyGraphs/snapshots.html 살아있는 듯한 프로세스 스냅샷 마치 심장 박동이나 미세한 생명체처럼 보여 기괴해보일.. 2024. 3. 11.
콜로니 그래프(Colony Graph): 클라우드 서비스를 시각화하기 - 01 TL;DR 클라우드를 기반의 서비스를 운용하는 기업은 서비스의 규모에 따라 수십, 수백 개의 인스턴스를 관리하는 부담을 가지게 된다. 이번 포스트에서는, 그래프 표현을 이용해 클라우드의 프로세스를 시각화하고 이를 통해 클라우드 관리를 용이하게 하는 'Colony Graph' 방법론에 대한 Brendan Gregg의 포스트를 번역 및 분석해본다. 원문은 약 10년 전 작성된 오래된 포스트이지만, 클라우드 서비스에 대한 흥미로운 그래프 분석 양상을 제시하고 있다. 원문 링크: https://www.brendangregg.com/colonygraphs.html * 이해를 돕기 위한 의역이 포함됩니다. ** 이미지를 클릭하면 큰 이미지로 볼 수 있습니다. 콜로니 그래프(colony graph)*는 컴퓨터의 유기.. 2024. 3. 10.
검색증강생성(RAG) - 그래프 기반 벡터 인덱스 HNSW(Hierarchical Navigable Small World) TL;DR 이전 포스트에서는 역 인덱스 기반의 IVF 벡터 인덱스를 소개했다. IVF와 함께 벡터 데이터베이스에서 가장 많이 사용되고 있는 벡터 인덱스 알고리즘으로, 벡터 데이터를 계층형 그래프로 구성하여 표현하는 HNSW(Hierachical Navigable Small World)이 있다. 이 포스트에서는 HNSW를 이해하는 데에 필요한 개념들을 소개하면서, HNSW의 원리를 이해해보도록 한다. * HNSW 논문 링크(Malkov & Yashunin., 2016): https://arxiv.org/abs/1603.09320 목차 더보기 1. Small World 2. NSW(Navigable Small World) 3. Skip List 4. HNSW(Hierachical Navigable Small.. 2024. 2. 25.
OpenAI의 동영상 생성 모델 'Sora' Technical Report 읽어보기 * 이해를 돕기 위한 의역이 포함될 수 있습니다. * 각주나 이미지, 영상 등의 보조 자료는 원문 링크에서 확인 가능합니다. 원문 링크: https://openai.com/research/video-generation-models-as-world-simulators Video generation models as world simulators 세계 시뮬레이터로서의 비디오 생성 모델 February 15, 2024 We explore large-scale training of generative models on video data. Specifically, we train text-conditional diffusion models jointly on videos and images of variable.. 2024. 2. 17.
검색증강생성(RAG) - 벡터 인덱스 기초 및 IVF 2023.11.01 - [🔵 AI & ML] - 검색증강생성(RAG) 이해하기 - 01. 벡터 DB 기초 2024.01.27 - [🔵 AI & ML] - 검색증강생성(RAG) 이해하기 - 02. Ragas를 이용한 RAG 파이프라인 평가 TL; DR RAG 프레임워크에서는, 빠른 벡터 검색을 위해 임베딩한 벡터들을 사전에 군집화 또는 계층화 해놓는다. 이를 통해, 검색 시 모든 벡터를 대조할 필요가 없도록 데이터를 구성하는데 이러한 데이터 구조를 이를 '벡터 인덱스' 라 한다. 벡터 인덱싱 방법으로는 IVF(역파일 인덱스)와 HNSW(계층적 탐색이 가능한 작은 세계) 알고리즘이 가장 잘 알려져 있는데, 여기서는 IVF를 중심으로 설명하면서 벡터 인덱스의 기초가 되는 개념들을 함께 소개한다. 목차 더보기 .. 2024. 2. 12.