올리브영에서 데이터 크롤링을 해오는건 불법일까 ? (Python)
·
Python/Crawling
서론Q. 올리브영 글로벌 사이트에서, 일본어로 설정 후 크롤링하면 일본 상품 그대로 긁어올 수 있을거같은데, 어디까지 크롤링이 가능할까요 ?A. 올리브영 글로벌 사이트에서 개발자 도구로 네트워크 탭(JS 기반)도 한번 보고, 올리브영 robot.txt 사이트에서 Allow 로 허용된 범위 확인해볼게용실제로 내가 프로젝트를 진행하면서 들었던 질문과 답변이였다. 데이터 크롤링은 저작권이라는 법적인 문제와 직결되어있는 예민한 사항이였기때문에, 그만큼 세세하게 리서치를 해보면서 고민했던 내용을 공유하고자 포스팅을 작성하게 되었다본문먼저 서론에서 답변으로 나왔었던 robot.txt 란 무엇일까 ??robots.txt란 ?robots.txt 파일은 웹사이트에서 검색 엔진 크롤러(봇)에게 접근 가능한 영역과 접근 불..
FewShot, ChatHistory 활용해서 RAG 고도화 + Streamlit으로 배포 (LangChain)
·
Python/Langchain
들어가며이번 포스팅은 이전 키워드 사전 활용으로 Retrieval 효율개선이라는 내용의 포스팅에서, 추가로 FewShot, ChatHistory를 통해 고도화한 내용이라 아래 포스팅을 못본 사람들은 참고해주면 좋을거같다 🙇🏻‍♂️https://huncozyboy.tistory.com/42 키워드 사전 활용으로 Retrieval 효율개선 (LangChain)들어가며사용자 질문 표현이 검색 성능에 미치는 영향여러가지 Chat GPT를 포함한 생성형 AI 모델들을 사용하게 되면, 종종 사용자 질문이 모델의 답변 정확도에 큰 영향을 주는 것을 체감하게 된huncozyboy.tistory.comFewShot이란?먼저 실습을 진행하며 코드를 입력했던 내용을 공유하기 전에, FewShot이라는 개념에 대해서 알아..
키워드 사전 활용으로 Retrieval 효율개선 (LangChain)
·
Python/Langchain
들어가며사용자 질문 표현이 검색 성능에 미치는 영향여러가지 Chat GPT를 포함한 생성형 AI 모델들을 사용하게 되면, 종종 사용자 질문이 모델의 답변 정확도에 큰 영향을 주는 것을 체감하게 된다. 특히 RAG 이전 실습에서 소득세법 문서를 학습시켜, 간단한 AI 모델을 구성하여 질문해보면서 느꼈던 점은, 사용자 질문의 표현 방식이 검색 성능에 치명적인 영향을 미친다는 것이었다{'query': '연봉 5천만원인 직장인의 종합소득세는?', 'result': '근로소득에 대한 종합소득세는 기본세율이 적용됩니다. 따라서, 연봉 5천만원인 직장인의 종합소득세는 개별적인 경우에 따라 달라질 수 있으며 정확한 계산을 위해서는 기본세율표를 참조하여야 합니다. 구체적인 세율 적용 및 공제 항목을 고려해 정확한 금액..
RAG 개념 + Vector와 Embedding (Python)
·
Python/Langchain
들어가며요새 AI의 중요성을 뼈저리게 느끼면서, 구름톤 동아리 스터디에서 LLM 강의를 수강하기로 하였다. LLM은 강력한 텍스트 생성 능력을 가지고 있지만, 최신 정보나 특정 도메인의 법률과 같이 아주 구체적인 데이터는 잘 다루지 못한다. 따라서 이러한 약점을 보완할 수 있는 구조가 필요했고, RAG가 그 해답이었다고한다. 실제로 강의를 수강하고, 프로젝트에서 어떻게 적용해볼지에 대한 부분까지 계획하고 공유하는 스터디를 진행해보기로 하였다 예를 들어 GPT-4는 2023년 12월까지의 데이터까지만 보유하고 있어서 이후 개정된 세법을 반영할 수 없다던지, 외부 지식를 기반으로 답변을 생성하게 해줘야하므로, RAG를 효율적으로 활용한 튜닝 또한, LLM에서 정말 중요한 부분이라고 느꼈다본문RAG이란 ?RA..