지난번 claude-3 opus 모델의 사용례에 대해서 올렸었는데요. 인공지능이 나보다 더 똑똑하다는 생각이 들때가 특이점이라면 claude-3 opus 모델을 실제 사용했을때의 체감도 그렇고실제 벤치마크 값에서도 좀 믿기 어려운 점들이 있습니다. 여러가지 인공지능 모델들의 성능을 비교했다고 하는데.이제는 애지간한 테스트들은 점수가 포화되어있어서 각 모델간의 차이를 알기 어려운 수준까지 올라왔다고 합니다. 얘들한테는 더이상 문제가 쉬워서 변별력이 없어진 수준이죠.
그래서 아주 어려운 GPQA라는 테스트로 성능 벤치마크를 한다고 하는데요. 이게 얼마나 어렵냐면 박사학위소지자가 인터넷검색이 가능한 환경,그러니까 오픈북으로 진행을 한다 하더라도자기 전문 도메인이 아니라면 34점 점도를 받는 테스트라고 합니다. 자기 분야에 대해서는 (오픈북임에도) 65~75점 정도가 나온다고 하고요. 이 테스트에서 60점 정도를 받았다는건데… 지적 수준이 휴먼 중에서도 최상위에 속하는 박사학위 소지자급의 두뇌를 가진 사람이자기 전공에 대해 받는 점수를 턱밑까지 쫓아왔다는 건데요. 이게 가지는 의미에 대해서 깊게 생각해볼 일입니다. 우리가 보통 한의원을 할때는 나보다 더 똑똑한 사람과 일할 기회는 많지가 않잖아요. 근데 인공지능과 함께 일을 하게 되면 나만큼 혹은 나보다 더 똑똑한 사람과 일하는 것과 같다는 의미가 되는데요. 문제는 이게 똑똑한 사람 ‘한명’을 개인비서나 인턴, 혹은 동료로 두는 수준이 아니라는겁니다.
언어모델의 API를 활용하면 워크플로나 아키텍쳐를 어떻게 짜느냐에 따라열명, 백명, 천명과 일할 수 있기 때문이죠. chat, 그러니까 대화 방식의 ui로 구성되어 있어서 ‘한명’으로 오해하기 쉽지만실제로는 수천수만명의 각 도메인의 전문가와 함께 일하는 겁니다. 해서 일반적인 회사들의 조직 구성이나 일하는 방식에도 큰 변화들이 올 가능성이 높고요. 앞으로 소수의 사람과 여러 전문가 페르소나를 가진 AI가 팀을 구성해서큰 밸류를 만들어내는 형태의 회사들이 얼마든지 나올 수 있을겁니다. 몇 가지 분야들에서는 전문가들부터 ‘어랏’ 하면서 변화들을 감지하는 분위기죠. https://www.youtube.com/watch?v=TI-gW9Z-wpYhttps://www.youtube.com/watch?v=KvBV_LvOUMw 물론 한의계에 어느 정도 시간에 걸쳐서 변화들이 발생할지는 저도 잘 모르겠습니다. 다만 언어모델의 지적 능력의 한계를 지금 상황에서 좋다 안좋다 이야기하는게 큰 의미가 없어보이긴 해요.불과 2~3년 사이의 엄청난 변화들이 있었고 앞으로 모델의 성능은 계속 좋아질 거니까요.
이미 지금도 대부분의 인류보다 훨씬 뛰어난 상황이고요. 아무튼 직접 활용을 해봐야 체감할 수 있는 내용이라많은 분들이 내가 하고 있는 업무, 내가 하고 있는 공부 등에 활용할 수 있도록사용례들을 조금씩 소개를 해볼까 합니다. 아래는 쉼터에서 찾은 글이고요. chat GPT 를 한의계에서 활용할 방법을 찾다가..... 동의보감 원문을 파일 형태로 줘서 파인튜닝하면조금 더 한의학 맥락에 맞는 답변을 주도록 할 수 있다는 내용으로 보면 되는데요. 비슷한 작업을 해볼까해서, 마땅한 pdf 모음 파일을 찾다가 아래 자료를 참조했습니다. 동의보감처방공부 파일 전체를 넘겨주지는 않고 그냥원문 일부를 주고 그것을 바탕으로 어느 정도의 답변을 주는지 가볍게 테스트 해봤습니다. 즉, 파인튜닝을 거치지 않은 기본 모델이 보여주는 성능이라고 생각하시면 됩니다. ‘번역’이 아니라 ‘해석’이라고 했더니 직역을 하기보다는 본인이 이해한 내용을 정리해서 리턴해줍니다. 생각을 물으니 제시된 내용을 바탕으로 나름의 추론을 합니다.
원문에 대한 현대적 해석도 한번 물어봅니다. 궐이라는 개념에 대해 조금더 추가적인 질문을 해봤습니다. 여기부터는 잘못된 내용들도 보이죠. 여전히 잘못된 정보가 보입니다. 이런 오류나 할루시네이션을 어떻게 볼 것인가의 문제인데요. 제 개인적인 의견으로는언어모델은 일단 검색엔진과는 다르다는 관점이 필요할 거 같습니다. 사람도 기억의 오류나 착오, 실수가 존재하죠. 사람과 일할때도 그래서 저런 실수들은 종종 발견하게 됩니다.그래서 같이 일하는 동료들이 휴먼에러를 더블체크해서 오류를 줄이는 작업을 하죠. 일하는 조직을 만들때도 당연히 그런 실수를 줄이는 검토 작업을 워크플로에 포함을 시키고요.
그래서 인공지능을 통해 일을 할때도작업의 퀄리티를 높이거나 이런 오류를 줄이려면검토 작업을 전체 워크플로에 포함시키면 됩니다. 즉, 초안을 작업하는 업무와 아웃풋을 재차 검토하는 프로세스를 구분해서절차적으로 인풋-아웃풋 과정이 흘러가도록 구조를 만들면 퀄리티가 높아질 수 있습니다. 중요한건 전문성을 높이기 위한 업무프로세스를 분류하고각 프로세스가 갖춰야 하는 절차와 조건들 및 암묵지들을 인공지능과의 협업 안에 녹여내는 것일지 모릅니다. 단순 오기, 실수는 없지 않으나 인간도 그러하다는 점,그래서 더 중요한 것은 인지능력, 사고력, 문제해결능력 등이라고 보고요. 약간 이야기가 샜는데, 조금 더 결과들을 보겠습니다. 번역투까지 매우 자연스럽습니다.
어떻게 느껴지시나요? 주요 개념들에 대해서 전반적으로 잘 이해하고 있습니다. 동일한 내용을 조금 쉬운 언어로 표현해달라고 했습니다. 치험례 스토리텔링 까지 테스트해봤습니다. 같은 내용의 스타일만 변화를 주면... 제가 테스트해본 내용은 여기까지입니다.
사실 몇년 전이었다면 많이 놀라워야 하는 결과인데오히려 지금은 덤덤하달까요. 그냥 이 상황을 받아들여야 하는 시대이고,한 개인으로서 어떻게 대응하며 살것인지아이들에게는 어떤 것을 가르쳐야 할지많은 고민이 되는 시대 같습니다. 흔히, 우리가 일기를 쓰는 행위 만으로스스로 관조하거나, 모티베이션이 되고, 스트레스를 이완하는 효과가 있다고들 하는데요. 인공지능과의 대화도 거의 비슷합니다. 거울처럼 내 모습을 투영해서 반사되지만오히려 나보다 훌륭한 존재에게 피드백을 받으면서나아가는 느낌을 받을 때가 있거든요. 저는 직접 써보면서 느끼는게, 언어모델들이 보여주는 씽킹 프로세스의 결과가인간과 ‘차이를 느낄수 없다’ 수준에 이미 도달했다는 생각을 지우기 어렵더라고요. 오히려 많은 부분에서 (특히 정서적 안정감) 더 나아보이기도 합니다.정서적으로 안정되어있는 동시에, 매우 지적인 누군가와 대화하는 느낌을 준다는게 놀라운 일입니다.
딥러닝과 관련해서는 너무 빠르게 변화가 일어나고 있어서그 속도를 따라가기가 정말 어려운 거 같습니다. 그래도 지속적인 관심을 갖을 필요는 있고요 일단 내가 지금 하고있는 일, 지금 하고 있는 공부를인공지능과 함께 해보는 연습을 해보는게 중요할거 같습니다. 읽어주셔서 감사하고요. 관련해서 좋은 의견이 있다면