Archive for category WA学习笔记

一份典型的流量合作站数据来源分析报告

A站_合作站(hezuo.com)来源数据统计:
1月10——12月15日从(hezuo.com)网域过来的流量保持在1.2万-1.5万左右。
1月16日:pv:124,814   访客:15,164  puv: 8.23
1月17日:pv: 122,274   访客:15,063  puv: 8.11
1月18日:pv: 121,363   访客:15,290  puv: 7,93
通过分析,判定这个网域过来的流量是流量作弊的结果。分析如下:
1)从合作站(www.hezuo.com)本站情况来看,Alexa综合排名55万左右 ,百度收录28100 ,谷歌收录 859 ,
以一些站长的个人经验来看,这样的Alexa排名的站本身的日均流量应该不会超过1000个UV。
2)从合作站(www.hezuo.com)重点关键词的百度排名来看,
北京分类信息——前5页不见
北京二手车——前5页不见
出租房——前5页不见
北京二手房出售——前5页不见
北京二手车买卖——前5页不见
…………
虽然此站的“北京分类信息”一词的排名在搜狗浏览器排名第十,但搜狗浏览器用户有限,仍然不能成为给A站带来诸多流量的直接原因。
此站很多重点做的关键词的百度排名都相当差,所以此站本身的流量不会太高,更不可能能给A站带来上万的访客。
3)从webtrends的数据来看:
单一网页访问的访客数:日均有400访客为单一网页访问,这个比例400/15000是相当理想的一种情况。相比163来源的流量单一网页的访问比例是900/2500;QQ来源的流量单一网页的访问比例是6500/18000;相比之下合作站(hezuo.com)这个站过来的流量太过理想,难逃作弊的嫌疑。
路径分析:从www.A.com此页的退出率(注:点入此页后没有进行下一页访问的百分比)来看:合作站(hezuo.com)此站的首页退出率是不到10%,相比QQ来源的首页退出率是38%左右,163来源的首页退出率是30%,相比之下合作站此的流量太过理想,超过大站过来的流量质量。
访问的总页面数:合作站(hezuo.com)此站过来的上万的访客的访问只分布在7、8个页面,这一点是
正常的访问分布会有几个比较集中的页面,但肯定会有很多访问量较小的页面组成的长尾。例如163过来的2500个访客的访问分布,就覆盖了2000多个页面(报告上限是2000个报告),因此这一点是判断合作站流量作弊的主要依据。
访客IP地址的分省和分市的比例:比例符合正常流量情况。
浏览器分布:IE浏览器占99.1%。全站流量中IE浏览器的比重大约为90%。
总结,怀疑合作站(hezuo.com)可能运用木马控制的计算机进行流量作弊,木马可能会在用户打开浏览器时随机的按一定比例访问某几个页面,因此用户的访问时间分布,和IP地址分布都比较符合正常的访问,但是网站的热点内容的分布情况是对方无法模拟的,在这里更是简单的选取了7、8个页面(频道的主页面,而且比例相差无几,并不符合全站各频道的流量比例)。IE浏览器占99.1%,因为木马是调用了IE,所以IE的比例太高。

Tags:

转载一篇非常有用关于流量作弊的分析

网站流量造假已寄生于网络营销的整个过程。以下我们根据网站流量造假的水平来查看网站流量造假的等级,分别查看分析网站流量造假的方式。
Level One: “原始社会(primitive communes)”
Case A:在Cookie与IP不变的情况下,反复地点广告。
造成 Ads 的 Click 增加,如果造假者愿意(等点击后的页面打开),还能造成 Landing Page 的 Pageview 增加。
Case B:在 Cookie 与IP不变的情况下,反复地刷新页面。
从 Ads 的角度,会造成 Impression 增加;从 Site 的角度,会造成 Impression 增加。
总结
在这个阶段的流量造假,是非常简单粗暴的,基本上所有的专业监测工具都能发现这种愚昧的行为。尽管如此低级,这种流量造假的组织或者个人还是乐此不 疲(Always enjoy it)。因为这种方式效率高且技术含量低,编程容易实现。有时连自然人也会参与,他们与流量有着直接的利益关系。
危险提示:请勿对自己 Google Adsense 广告进行尝试,否则保证一周内收到 Google Adsense 协议中止邮件。
Level Two: “奴隶社会(slave society)”
Case A:一定频率地清除 Cookie。
反复地清除 Cookie,对于程序来说非常容易实现。很多监测工具的监测是基于 Cookie 的。Cookie 的清除,意味着每一次的访问都是一个新的 Visitors。
Case B:召唤肉鸡,或者购买流量。
有钱能使磨推鬼(Money makes the mare to go)。有些组织或者个人,会花10块钱购买流量进来,然后卖出的广告资源却能赚100块。如果没有分析师去监控网络营销的效果,在中国基本上50%以上 的钱都会打水漂(当然剩下50%中按照基本的广告原理又浪费了一半)。
总结
这是时下最普及的造假方式,造假者不仅追求流量的增涨,还开始了海量化,并且具有基本的反侦查能力。然而这种造假还是较容易被发现。前提是你必须使 用第三方监测!这里有两条建议:
1.选择专业的第三方监测工具。
一个专业的监测工具,能帮助收集足够的信息,而这些信息是打击造假的重要证据。
比如广告监测工具,可以监测到广告点击者的 IP 与 Cookie。那么在监测工具中生成的 Report 中,就很清楚地看得出:Case A的情况同一个 IP 的人在变化 Cookie 在进行点击。
2.从Engagement Level去分析。
不要仅仅停留在Impression、Click、Pageview、Visits这种“Volume”式的度量上,更多的还需要考虑 Bounce Rate,Converions Rate,Action Rate 这种“Engagement”式的度量上。买来的流量,或者不相关的流量,自然地 Engagement 就会很低。
Level Three: “工业革命(Industrial Revolution)”
Case A:一定频率地更换IP,甚至连Cookie也一起清除。
这种方法能让一台PC造成上成千上万个独立访问。不过变化IP地址实现起来较为复杂,变化IP地址段更为难实现。最简单的更换IP方法就是通过不固 定IP的宽带拨号上网,但IP段一般不会有大的变化。
所以如果有组织能采取这种方式作弊,说明已具体较强的技术实力与网络资源,基本上广告端的监测工具就开始捉襟见肘(have too many difficulties to cope with)了。
Case B:剥离监测代码,到处乱放,或者软件虚拟执行。
广告的监测代码不是绑定的也不是加密的,可以随意的剥离,到处使用。比如广告主A的广告代码可以加到广告主B的广告素材中。这样广告主B的广告显示 了,广告主A也被统计了。这种作弊,我是屡见不鲜了。
另外还有是软件虚拟执行,这是唯一一种我未验证的造假方式,但这种方式被许多人所假设。事实上,我曾规划过的程序上的实现机制,从理论上这是完全可 行的。只需要一台服务器,一个程序与一些访问者。
Case C:引入流量,并点击指定页面链接。
前面我谈过从 Engagement Level 进行分析可以很大程度上发现流量造假。可是如果流量访问后,再进行点击怎么办呢?这时 Engagement Level 的分析方法就开始受到挑战了,可能会行不通。
这是非常高级的流量造假,已经深入到Engagement Level。这种情况下,Bounce Rate 可以优化得非常的完美(50%-70%),甚至是极度不可思议(低于40%)。
专业的“造假师”(虚构职位),可以让访问者分散地点击页面中的关键内容,并控制 Bounce Rate 在70%左右。这样,你会发现,自己的 Landing Page 惊人的好,而且用户的点击分布也非常的合理。
总结
这个层次的流量造假已经开始兴起,并且承结合之势(即Case A B C相互结合)。这时候普通的监测工具已经是完全失效了,这时需要的是专业的分析师(事实求是,我没在做广告)。分析师可以从数据结构、流量漏斗 (Traffic Flow)、自定义监测、创新度量多个角度来结合分析。就像破案,再悬疑的奇案,好侦探也能破案。
总的来说,流量造假离不开三个元素:IP、Cookie、Browser,通过对三个元素的控制与变化,让监测工具表现上难分虚 实。
流量造假已经是互联网的一个产业,是一个潜规则,是许多网站赖以生存并持续发展的兴奋剂(exhilarate)。不管在中国乃至世界流量造假现象如何猖獗,假的始终是假的!它们都有蛛丝马迹能被分析师发现他们的虚假 性。
当然我不排除有组织或者个人能够制造中与正常流量几乎一致的假流量。但我相信与其制造这种高质量的假流量,还不如真真实实地把自己的网站做好,吸引网友来得划算。
最后对于网站所有者,希望踏踏实实地(down-to-earth )建站;对于广告主,希望小心翼翼(meticulous)地花钱。

Tags:

说说网站分析工具是如何辨别UV的?

UV的全称是unique visitor,uv是大家公认的衡量网站流量的重要的单位。

那么网站分析工具诸如WebTrends、GA、是怎样辨别uv的呢?

第一种方法,让网站的服务器自己分辨。

如果你有研究过网站日志的话,肯定知道网站日志的几个组成部分,用户浏览器发出的每一个请求都会形成一条日志,信息内都包含了你电脑的一些信息。这些信息包括很多内容,比如你的IP地址、你发出请求的时间、你的浏览器的版本、你的操作系统的版本,已经访问这页网站的前一页等等很多信息,把这些信息好好研究对下一步的网站分析工作是很有帮助的。

如何定义这些共同的特征是由网站服务器的设置决定的。一般而言,用IP地址+其他特征共同限定来定义的情况比较多,但是IP地址实际上并不准确,尤其在局域网内有共用IP地址的多台计算机的情况发生的时候。这时候服务器辨认的数据就难免出现误差了。

第二种方法,用cookie分辨。

当客户端第一次访问某个网站服务器的时候,网站服务器会给这个客户端的电脑发一个Cookie,放到这个电脑的某个区域,一般是C盘里。这个Cookie会分配给你一个独一无二的编号,还会记录一些你访问服务器的信息,例如访问时间,访问了什么网页,以及与你这次访问有关的其他一些信息。当你下一次再访问这个服务器的时候,服务器就可以直接从你的电脑上找到上一次它放进去的这个Cookie,并且会对它进行一定的更新,但那个独一无二的编号不会改变。如果一段时间内,服务器发现两个Visits的对应的Cookie实际上是一个编号,那么,服务器就知道,尽管在这段时间内有不少次Visits,但都来自于一个客户端,那么一定就是一个Visitor了!

cookie辨别uv是比较精确的,但是问题是,有些客户端为了保证更高级别的安全,关闭了Cookie的功能,或者你经常删除Cookie,这个方法就不能奏效了。

由此可见,网站分析工具分析的数据是相对准确,而不是绝对的。

Tags: ,

Excel中Vlookup函数的使用心得

今天做一个表格用到了vlookup函数,确实很强大,一个函数就可以得出想要的表格。但是操作起来确实很麻烦,而且出现了诸多不同情况的错误。
翻阅一些资料,大家互相学习一下,有好主意分享一下。
“Lookup”的汉语意思是“查找”,在Excel中与“Lookup”相关的函数有三个:VLOOKUP、HLOOKUO和LOOKUP。下面介绍VLOOKUP函数的用法。
一、功能
在表格的首列查找指定的数据,并返回指定的数据所在行中的指定列处的数据。
二、语法
标准格式:
VLOOKUP(lookup_value,table_array,col_index_num , range_lookup)
三、语法解释
VLOOKUP(lookup_value,table_array,col_index_num,range_lookup)可以写为:
VLOOKUP(需在第一列中查找的数据,需要在其中查找数据的数据表,需返回某列值的列号,逻辑值True或False)
1.Lookup_value为“需在数据表第一列中查找的数据”,可以是数值、文本字符串或引用。
2.Table_array 为“需要在其中查找数据的数据表”,可以使用单元格区域或区域名称等。
⑴如果 range_lookup 为 TRUE或省略,则 table_array 的第一列中的数值必须按升序排列,否则,函数 VLOOKUP 不能返回正确的数值。
如果 range_lookup 为 FALSE,table_array 不必进行排序。
⑵Table_array 的第一列中的数值可以为文本、数字或逻辑值。若为文本时,不区分文本的大小写。
3.Col_index_num 为table_array 中待返回的匹配值的列序号。
Col_index_num 为 1 时,返回 table_array 第一列中的数值;
Col_index_num 为 2 时,返回 table_array 第二列中的数值,以此类推。
如果Col_index_num 小于 1,函数 VLOOKUP 返回错误值 #VALUE!;
如果Col_index_num 大于 table_array 的列数,函数 VLOOKUP 返回错误值 #REF!。
4.Range_lookup 为一逻辑值,指明函数 VLOOKUP 返回时是精确匹配还是近似匹配。如果为 TRUE 或省略,则返回近似匹配值,也就是说,如果找不到精确匹配值,则返回小于lookup_value 的最大数值;如果 range_value 为 FALSE,函数 VLOOKUP 将返回精确匹配值。如果找不到,则返回错误值 #N/A。
四、应用例子
A B C D
1 编号 姓名 工资 科室
2 2005001 周杰伦 2870 办公室
3 2005002 萧亚轩 2750 人事科
4 2005006 郑智化 2680 供应科
5 2005010 屠洪刚 2980 销售科
6 2005019 孙楠 2530 财务科
7 2005036 孟庭苇 2200 工 会
A列已排序(第四个参数缺省或用TRUE)
VLOOKUP(2005001,A1:D7,2,TRUE) 等于“周杰伦”
VLOOKUP(2005001,A1:D7,3,TRUE) 等于“2870”
VLOOKUP(2005001,A1:D7,4,TRUE) 等于“办公室”
VLOOKUP(2005019,A1:D7,2,TRUE) 等于“孙楠”
VLOOKUP(2005036,A1:D7,3,TRUE) 等于“2200”
VLOOKUP(2005036,A1:D7,4,TRUE) 等于“工 会”
VLOOKUP(2005036,A1:D7,4) 等于“工 会”
若A列没有排序,要得出正确的结果,第四个参数必须用FALAE
VLOOKUP(2005001,A1:D7,2,FALSE) 等于“周杰伦”
VLOOKUP(2005001,A1:D7,3,FALSE) 等于“2870”
VLOOKUP(2005001,A1:D7,4,FALSE) 等于“办公室”
VLOOKUP(2005019,A1:D7,2,FALSE) 等于“孙楠”
VLOOKUP(2005036,A1:D7,3,FALSE) 等于“2200”
VLOOKUP(2005036,A1:D7,4,FALSE) 等于“工 会”
五、关于TRUE和FALSE的应用
先举个例子,假如让你在数万条记录的表格中查找给定编号的某个人,假如编号已按由小到大的顺序排序,你会很轻松地找到这个人;假如编号没有排序,你只好从上到下一条一条地查找,很费事。
用VLOOKUP查找数据也是这样,当第一列已排序,第四个参数用TRUE(或确省),Excel会很轻松地找到数据,效率较高。当第一列没有排序,第四个参数用FALSE,Excel会从上到下一条一条地查找,效率较低。
有经验者认为,若要精确查找数据,由于计算机运算速度很快,可省略排序操作,直接用第四个参数用FALSE即可。
实践是检验真理的唯一标准。经过各种方法的尝试我还是认为这样的函数写法,结果出现问题的几率会小一些,而且操作相对简便。
=VLOOKUP(A3,对应表!A$2:C$556,3,FALSE)

Tags: ,