GitHubAI & Toolsidea-techcode

jina-ai/reader

jina-ai·@jina-ai·Apr 18, 2024

개요 URL 앞에 `https://r.jina.ai/`를 붙이기만 하면 해당 웹페이지를 LLM이 읽기 좋은 깔끔한 텍스트로 변환해주는 서비스다. 복잡한 HTML, 광고, 사이드바 등을 제거하고 핵심 본문만 추출한다.

핵심 내용 웹 크롤링, HTML 파싱, 텍스트 정제를 하나의 간단한 URL 프리픽스로 처리한다. 10,000+ stars의 인기 오픈소스 프로젝트로, 서버리스 형태로 자체 배포도 가능하다. TypeScript로 구현되어 있으며 Jina AI의 무료 API 엔드포인트도 제공한다.

기존 대비 차별점 Puppeteer, BeautifulSoup 등으로 직접 구현해야 했던 웹 페이지 텍스트 추출을 단 하나의 URL 변경으로 해결한다. 추가 코드나 설정 없이 LLM 프롬프트에 웹 콘텐츠를 즉시 포함시킬 수 있다.

활용 가능성 LLM 앱에서 웹 검색 결과를 컨텍스트로 넣기, RAG 파이프라인에서 외부 URL 문서 수집, AI 에이전트의 웹 브라우징 기능 구현 등에 간편하게 활용할 수 있다.

참고 자료 - 원본

TypeScript10,308llmproxy
#llm#url-to-text#proxy#reader

Related in AI & Tools