ChatGPT를 구현 가능한 오픈소스 프로젝트를 소개합니다. (ft.OpenChatKit)
본문에서는 아래와 같이 설명하고 있고요..
---
OpenChatKit provides a powerful, open-source base to create both specialized and general purpose chatbots for various applications. We collaborated with LAION and Ontocord to create the training dataset. Much more than a model release, this is the beginning of an open source project. We are releasing a set of tools and processes for ongoing improvement with community contributions.
---
간단하게 번역하자면요..
---
OpenChatKit은 다양한 애플리케이션을 위한 특수 및 범용 챗봇을 생성할 수 있는 강력한 오픈 소스 기반을 제공한다고 밝혔고요..
LAION 및 Ontocord와 협력하여 교육 데이터 세트를 만들었다고 하네요..
그리고, 모델 출시보다 훨씬 더, 이것은 오픈 소스 프로젝트의 시작이라는 한마디와!!
커뮤니티 기여를 통해 지속적인 개선을 위한 일련의 도구 및 프로세스를 출시하고 있다고 하네요~~
....(생략)...
---
그리고, 해당 웹페이에서는 모델의 약점에 대해서도 설명하고 있었는데요..
즉, 우리가 해야 할 일이 더 많은 몇 가지 영역이 있으며 여러분의 도움이 필요합니다라고요..
그리고 약점에 대한 일부는 다음과 같다고 ...
첫번째, 지식 기반 폐쇄형 질문 및 답변: 챗봇이 환각을 일으키고 잘못된 결과를 제공할 수 있다고 하네요..
사실 확인을 하고 가능하면 수정된 정보로 피드백을 제공하라고 하고요..
또한 이것에 도움이 될 검색 시스템을 강화하기 위해 노력하고 있다고 했고요..
두번째, 코딩 작업인데요..
챗봇은 코드 작성에 탁월할 만큼 충분히 큰 소스 코드 모음에 대해 훈련되지 않았다고 하네요..
이를 개선하기 위한 추가 데이터 세트의 기여를 환영한다고요..
세번째, 반복에 대한부분인데요..
때때로 챗봇이 응답을 반복한다고 하네요..
이 문제를 개선하기 위해 노력하고 있지만 그 동안 새로 고침 버튼을 클릭하여 새 대화를 시작할 수 있다고 하고요..
네번째, 컨텍스트 전환에 대한 부분인데요..
대화 도중에 주제를 변경하면 챗봇이 자동으로 전환하지 못하고 이전 주제와 관련된 답변을 계속 제공한다고 하네요..
마지막으로 창의적인 글쓰기 및 긴 답변에 대한 부분인데요..
챗봇은 에세이나 이야기와 같은 길고 창의적인 텍스트를 생성하지 않는다고 하네요..
그래서,. 피드백을 받고, 데이터 세트를 강화하고, 정확성을 개선하여 이러한 약점을 해결하기 위해 도움이 필요하다고 하네요..
아무튼, 주요내용을 간단하게 정리해보자면요..
아래와 같이 정리해볼 수 있겠네요..
- 소스코드, 모델 가중치 및 학습 데이터셋 전체를 Apache-2.0으로 공개
- 4개의 주요 컴포넌트
- GPT-NEOX-20B를 4300만개의 명령어셋으로 파인튜닝한 Instruction-Tuned LLM
- 자신의 작업에 맞게 파인튜닝 가능한 Customization Recipe
- 도큐먼트 Repo, API 및 추론시점에 실시간으로 업데이트 가능한 소스에서 정보를 가져와 응답을 보강할 수 있는 Extensible Retreival System
- GPT-JT-6B를 파인튜닝하여 봇이 응답할 질문을 필터링 하도록 설계된 Moderation Model
- LAION과 Ontocord의 협업 : 4300만개의 명령어를 포함하는 OIG 데이터셋(별도로 공개)
좀 더 자세한 내용은 아래 웹페이지를 방문해보시길 추천드리고요..
항상 믿고 봐주셔서 감사합니다.
앞으로 더욱 좋은 컨텐츠로 찾아뵐 수 있도록 노력할께요~
감사합니다.
'좋아하는 것_매직IT > 96.IT 핫이슈' 카테고리의 다른 글
AI 적은글인지 확인하는 방법이 있다고? (ft.copyleaks, ai-content-detector) (0) | 2023.09.24 |
---|---|
카카오톡 네트워크 오류가! 판교 화재 후 벌써 두번째네요. (0) | 2023.05.09 |
AMD CPU 시장 점유율 30% 확보, 인텔은 계속 하락 중에 있네요. (0) | 2023.02.19 |
영화 필름 느낌을 에뮬레이션 해주는 도구를 소개합니다. (ft.Filmbox) (0) | 2023.02.14 |
구글 AI 챗봇 Bard의 답변 내용 오류로 알파벳 주식 폭락했다는 소식인데요~(ft.chatGPT) (0) | 2023.02.09 |