潇洒的云

没有方向,没有目标。
飘去飘来,潇潇洒洒在九霄。
从不算计,从不寻找。
管他明天化作春雨,还是冰雹。
个人资料
幸福生 (热门博主)
  • 博客访问:
正文

正常,还是不正常 - 科学诊断与防治

(2023-09-23 10:05:25) 下一个

正常,还是不正常 - 科学诊断与防治
文/幸福生

正常,还是不正常,偶然看到了平等性这篇博文,想从IT专业的角度写几句。算是篇小科普,也希望文学城专业团队能看到。我相信他们的专业性,毕竟是令人羡慕的硅谷公司。

平教是生物医学的行家,就用个COVID-19的例子吧。

COVID-19是有症状的,这里就不多说了,诊断最简单的方法,就是测温度。这个相当于,平教的问卷调查。这是从外部的,非专业的,最有效的方法。

如果温度偏高,文学城的专业团队,相当于医务工作者,需要做进一步检测,相当于做核酸抗原什么的。下一步还有治疗和预防。

关于专业诊断,治疗和预防,下面我提出一点简单的看法,仅供参考。

首先我先科普一些,“流量作弊”的原理。当然是非常不专业的描述,内行就跳过吧。

文学城的热点排名,应该用的是点击量(click),或页面浏览量(PV - page view),这两个相差不多。点了就算点击量,但点了页面不一定能加载(load),比如说网速问题 。虽然浏览量和点击量稍有差别,但同样的缺陷是比较容易造假。

造假的原理并不复杂,常见的是人工点击,和利用软件制造出惊人的点击量。

无论是人工还是用软件,往往有一个比较明显的缺陷,就是大量点击来自相同的IP和相近的时间。

利用这一点,我们可以有了更有效的诊断方法,相当于做核酸。

有权限进背后数据库的很容易做,something like,
Select count(ip), ip from ClickLogs where blogid=xxx group by ip order by ip desc;

我发现文学城用google analytics, 其实进不了数据库,google analytics也能看出来。另外提醒一下文学城的技术团队,你们现在还使用UA,which will stop processing data soon,本来说今年七月一日,延期到明年七月一日。有可能的话尽早升级到GA4。

如果有大量点击来自相同IP,甚至相近的时间,就可以确诊了。当然了,也有可能是一群人,用同一WIFI,同时抢读精彩的大作,就管不了那么多了。

确诊了,要治吗?治疗就算了吧,什么大不了的事呀。钻空子者虽有不齿之嫌,主要还需留空子者亡羊补牢。用医学的术语叫预防,或叫疫苗。

预防的方法就是把热点排名,从点击量改成独立访客量(UV - Unique visitors)或独立IP量(IP - Unique IPs),因为文学城统计匿名访问,所以只好用IP,这样作弊就困难多了。

我写这篇小文,不是以博主身份写,我其实算不上什么博主。虽然博客里东西也不少,几乎没人看。我只把博客当作一个存储空间,存放自己辛辛苦苦码的字。或者说点击量我以前没怎么关心过。

现在发现有人关心,而且是很关心,文学城就有责任做好一点。给出一个公平透明开放的姿态,让大家开心一下。

正常,还是不正常,相信科学。平教的问卷调查,还有文学城的内部调查,和科学的防治,相信会让文学城成为一个更公平的平台。

[ 打印 ]
阅读 ()评论 (11)
评论
幸福生 回复 悄悄话 回复 '金字塔' 的评论 : 刚刚读了你的链接,觉得水有点深,可能是我天真了。文学城应该公开其google analytics 的数据,部分就行。比如,BG的几篇博文的IP和时间分析。

幸福生 回复 悄悄话 回复 '金字塔' 的评论 : 没错。如果是最专业的水军,文学城真的无能为力。我想到的只是换把好一点的错。或许没那么专业呢?
幸福生 回复 悄悄话 回复 'PeonyInJuly' 的评论 : 我虽然不关心点击量,也完全理解别人关心,更希望公平。
幸福生 回复 悄悄话 回复 'PeonyInJuly' 的评论 : 谢谢夸奖, 心里美滋滋的。大家都希望文学城,成为清净之地。
金字塔 回复 悄悄话 这个诉说:“无论是人工还是用软件,往往有一个比较明显的缺陷,就是大量点击来自相同的IP和相近的时间。” 是简单的假点击方式,更加复杂的方式是编写一个小程序,在程序中改变VPN的目的地,或者改变Internet Proxy Address。 网上有成千上万的免费Proxy可以使用,也有商业PVN可以变换数以千记的IP Address, 从而造成所谓世界各地的“读者”浏览某个特定的网页。这对于一个软件工程师来说,并非是一件有什么不得了难度的大事。

另外一个可能是“中国水军大量涌入文学城”。 请看一位博主几年前的发帖:

https://blog.wenxuecity.com/myblog/13923/201905/30886.html
PeonyInJuly 回复 悄悄话 “我写这篇小文,不是以博主身份写,我其实算不上什么博主。虽然博客里东西也不少,几乎没人看。我只把博客当作一个存储空间,存放自己辛辛苦苦码的字。或者说点击量我以前没怎么关心过。”
同感。对于点击,我虽然从以前的关心到现在的不在意,但是有两位朋友分享过得到decent 点击量的办法,我发现屡试不爽。
也同意您说的,网站的技术部门应该做点什么来address public concerns。
PeonyInJuly 回复 悄悄话 点赞!这是我欣赏的科学的态度。
佩服你提出的方法。同样期待文学城的改进。
这里藏了很多含金量高的文章啊。我会一一拜读。
幸福生 回复 悄悄话 回复 '平等性' 的评论 : 觉得没有那么强大。如能提供那么多IP,而且又要世界各地都有,分散在不同的地方,并和文学城用户群一致,再加上用AI技术点击,就没办法了。

另一方面,就像加把锁,碰到撬锁高手也不管用。换个防盗能力强一点的锁,也不一定管用,总该试试。
平等性 回复 悄悄话 幸福兄好文章。我觉得除了你所考虑的之外,还有一种可能,那就是有神秘而强大的机构或是组织,可以提供数以万记的特殊IP,专门用来捧红某一个,或是某几个用户。我不知道如果真的有这种情况,在制度上该如何防范。
幸福生 回复 悄悄话 回复 '亮亮妈妈' 的评论 : 怀疑很好理解,文学城应该与时俱进,防止有人钻空子,做更公正的平台。
亮亮妈妈 回复 悄悄话 点赞!多年前文学城的排名还是很公正的,后来全给搞乱套了。特别是长期占据第一是同一位博主就让人不得不产生怀疑。
登录后才可评论.