블로그 노출 알고리즘의 비밀 2탄

2024년 6월 10일

지난 번 글에서 블로그 로직과 관련된 여러 이야기들을 다룬 바 있습니다. 블로그 노출 알고리즘의 비밀[참고 자료] 오늘은 조금 더 딥한 이야기를 해보려 합니다. 앞에서 도 잠깐 언급을 했었는데요. 지수를 분석해주는 사이트들이 제공하는 정보는 외부에 공개하기에는 매우 은밀한 데이터 들입니다.실제 노출 순위가 어떻게 결정되는지를 보여주는 값들이기 때문인데요. 저는 여전히 어디서 이 값들을 가져오는 건지 파악을 못했습니다…(어느 원장님께서 공개된 api라는 댓글을 남겨주셨는데, 혹시 엔드포인트를 아시는 분은 좀 알려주시면 감사하겠습니다.) 일단 외부 업체가 임의로 만든 게 아니라실제 네이버의 검색 알고리즘에서 추출한 상당히 정확한 값이라는 전제 하에 아래 작업을 진행해봤습니다. 마스 기준으로, 아래 5개의 점수를 보여주는데요. 이 가운데 Unknown4가 합산 점수로 이 점수에 의해 순위가 결정된다고 볼 수 있습니다. 추정컨대, Unknown 1,2,3,5 값에 가중치를 매겨 합산 점수를 매기게 된다는 거죠. 물론 여기에 공개되지 않은 기타 다른 점수들이 포함될 수도 있을 겁니다. 순서대로 보자면 Unknown 1은 제목의 적절성데이터 타입은 int, range (1~3) Unknown 2 원고 점수(DIA)float, range(0.4x~0.8x) Unknown 3 블로그지수(C-rank)float, range(0.1x~0.6x) Unknown 5 최신성 지수,float 0.99… 에서 점차 줄어듬 입니다. 네가지 독립변수에 가중치를 매겨 종속변수(합산점수)를 추정하는 모델링을 회귀분석으로 진행해봅니다. 이건 chtatGPT에게 시켜봤습니다. 준2부터 최블까지 다양한 블로그에서 데이터를 추출한 뒤에 진행했고요. 모델링을 하고나서10개 정도의 샘플을 뽑아서 실제값과 모델링에 의한 추정치를 비교했을때크게 벗어나지 않는 스코어를 보여주고 있습니다... 물론 회귀분석의 세부 방법이 다양하다고 하는데요. 몇가지 방법을 추가해 다양하게 모델링을 한 뒤에 가장 예측값이 좋은 모델을 선별하게 했습니다. 이제 우리는 블로그 순위 예측 모델을 얻었습니다! 총점 즉 Unknown 4 값에 가장 영향을 많이 미치는 건 뭘까요? 각 세부 스코어의 가중치, 즉 중요도를 조사했습니다. score 1과 5는 영향이 크지 않습니다. 가장 크게 영향을 미치는 것은 Unknown 3, 즉 블로그 지수이고그 다음으로 중요한게 원고 지수로 나옵니다. 상식적인 결과입니다. 다이아와 씨랭크가 서로 영향을 주고 받으면서 한쪽으로밸붕이 되지 않게 하려는 엔지니어스의 설계 의도에 부합되기도 합니다. 그런데 정말 그럴까요? 현실적으로는 그렇지 않습니다. Unknown 4의 점수가 17점 이상인 경우만 따로 추출해서 분석을 해보면 다른 결과를 보여줍니다. 17점 이상의 고점인 경우에서는 블로그지수의 영향이 역설적으로 제로가 됩니다. 블로그지수가 의미가 없다니 상식적이지 않죠. 이걸 어떻게 해석해야 할까요?이건 오히려 반대로 해석을 해야하는데요. 고점을 받은 경우 그러니까 17점 이상을 받는 블로그는 최블밖에 없다는 의미입니다. 최블 사이에서는 블로그지수의 질적 차이가 존재하지 않기 때문에순위는 오히려 원고를 누가 더 잘 썼는지 누가 더 최근에 다시 밀어냈는지에 의해서만 결정된다는 의미가 됩니다. 다시말해,준최로는 아무리 원고에 공을 들이고 용을 써도 17점 이상을 받을 수 없다는 뜻이기도 합니다. 준최들 사이에서의 지수영향력은 원고점수에 의해 상당 부분 희석되는 반면,최블이 아니고서는 최블을 밀어낼 수 없습니다. 즉, 준최들 사이보다, 준최6~7과 최블 사이의 격차가 더 크다는 이야기죠. 데이터를 자세히 뜯어보면 점수의 급간이 미묘하게 움직이는데요. 여러가지 생각이 듭니다. 다양한 지수의 블로그를 적재적소에 잘 활용하는게 중요하다는 점 이해하셨을거라 보고요. 아무튼 오늘은 조금 어려운 이야기이긴 했는데, 블로그 관련 조금 관심있게 공부해보셨던 분들에게는 도움이 될 내용이라고 생각이 듭니다.

← AI로 한의원 블로그 글 써보기...txt 블로그 글을 잘 쓰기 위한 팁 →