richfox 发表于 2012-7-27 14:06:32

请教飞燕,关键词挖掘算法

最近看到了aizhan.com出的那个关键词挖掘工具,觉得很感兴趣,但是一直在研究他的关键词挖掘算法。他那么多词到底是哪来的?算法自己匹配的嘛???一直都没有个大概的想法,特来请教飞燕姐姐。。嘿嘿

月光飞燕 发表于 2012-7-27 14:54:31

刚才看了下你说的这个关键词挖掘工具网页版的,结论如下

比如‘美国’这个词

1.他的关键词来自于这几个地址
百度主搜索
http://www.baidu.com/s?wd=%E7%BE ... -8&usm=3&rsv_page=1
百度视频搜索
http://video.baidu.com/v?word=%C ... =0&db=0&s=0&fbl=800
百度图片搜索
http://image.baidu.com/i?tn=baid ... 2&word=%C3%C0%B9%FA
百度盗版文库
http://wenku.baidu.com/search?wo ... &ie=utf-8&lm=0&od=0

所谓相关词就是上面几个地址最下面的词了

下面是制作方法

怎么做成网页工具,这些词需要提前保存不?答案是,不需要,因为你没有百度那么强大的容量和服务器,你也做不到,其实只需要1台性能好的服务器就可以了,这台服务器要在国内,最好离北京很近,因为百度服务器在那里,这样采集速度飞快。

下面就是重点了

无论游客还是注册会员,挖掘出来的关键词,都是一页一页的(爱战),必须要翻页
就这个翻页功能,用户看第1页的时候,自己的服务器采集百度以上几个地址第一页的词,自己解析出来,然后显示给客户看,用户看第2页的时候,自己的服务器采集百度以上几个地址的第2页,解析出啦,然后显示,以此类推。

重复问题
为了解决重复问题,可以采集了美国这词后,然后跟踪一个相关词的比如‘美国大片’,通过这个词继续采集相关词,只要带美国就行。

下面是发挥
为了不让用户察觉是在采集百度相应页面的词,特别是第1页,可以在用户看第1页的时候,去采集非第1页的页面,随机的一个数字页面就可以了,这样就打乱随顺了。


至于采集链接URL中,美国这个词会转化为%C3%C0%B9%FA,这个的话,在php里面使用函数urlencode就可以做到,其他语言的话,自己去了解。

richfox 发表于 2012-7-27 16:31:40

回复 2# 月光飞燕


    相关词就是百度提示的相关搜索?然后再根据相关搜索里面的一个词再去搜索,又会得出一堆相关搜索的词?这样就能获得很多词了吧?是不是向一个反向金字塔那样,1个词找到N个词,然后N个词里面的一个可以再找到N个词这样的???

richfox 发表于 2012-7-27 16:32:15

回复 3# 汉的骄阳


    其实不打算参考,我主要是要获取长尾关键词,如果手动的话,太累了,还不如写个工具批量获取,然后再观察。:)

月光飞燕 发表于 2012-7-27 16:34:35

回复月光飞燕


    相关词就是百度提示的相关搜索?然后再根据相关搜索里面的一个词再去搜索,又会得出 ...
richfox 发表于 2012-7-27 16:31 http://advertcn.com/images/common/back.gif

是这样的,因为比对下来,aizhan里面的词与百度这些相关词是一样的,你可以仔细观察一下
实际上,同类型工具找长尾都是这个原理,否则哪去找


还有,其他的soso,bing,google等也可以作为来源

richfox 发表于 2012-7-27 16:37:21

本帖最后由 richfox 于 2012-7-27 16:45 编辑

回复 6# 月光飞燕


    :handshake 每次请教你问题都能获得很好的回答。太感谢了。我都没想过可以这样弄,估计我对编程太嫩了!:P

在没有想到的时候太难的,等看到方法却是如此简单,有时候就是这样。。。

再请教飞燕姐一个问题,我是学.net开发的,现在刚刚出来实习,目前实习工资是1K8,我比较喜欢做B/S,也被分配到了B/S小组(公司主要是C/S),所以就不是公司的核心业务了,我们现在在开发公司B/S模式的ERP。不过重点是现在在B/S小组,我们做的都是UI层,业务逻辑层和数据访问层我们都不可以碰。是不是刚刚开始出来都这样呢?是不是长期这样下去,对于能力的提高会起到作用吗?对于新人,工资待遇是算高还是算低呢???我现在挺头痛的,主要是怕没学到多少东西。

月光飞燕 发表于 2012-7-27 16:57:44

1.工资问题,实习的话,差不多,成都这边2k左右,做3-4年可以到4-6k
2.无论你喜欢哪种模式,B/S和C/S都要学好,目前是2者结合的年代,缺一不可,既然选这行都要精通才可以
3.公司对员工实行访问限制,目前是正常的,每个公司都会有这种现状,也是公司的一种保护措施。其次公司之间的确有好有坏,有很多公司只是单单让员工为自己服务,而不愿意培养和提升员工的能力,这个问题一般一开始是发现不了的,如果认为自己想跳槽,那么一旦找到机会,就跳吧,跳槽也是一种能力的培养。做开发的一般都是业界跳槽冠军。
4.工作一段时间后,一般2年1个阶段,如果认为自己的能力应该拿到什么样的工资,应该告知你的老板,让之给加薪水,这个是正常的,如果老板不愿意提升薪水,而自己的能力的确超出那个层次,那么可以考虑跳槽。
5..net比较万能,但是也要看到他的缺点,比如简单好学,那么掌握的人就比较多,竞争起来就比较难,所以做这行没办法只有多学,多练,才能掌握更多,过得比别人更好。

richfox 发表于 2012-7-27 19:07:55

回复 8# 月光飞燕


    是的,两种模式都要会,现在也智能先做看看啦,如果实在不行,只好跳槽了

mj23zyb 发表于 2012-7-27 22:37:00

有技术还是好办事啊!唉。。。

gger 发表于 2012-7-29 16:06:32

还有那个whois反查

jiangsir999 发表于 2012-8-1 12:07:16

这个要看一下先!!!!!
页: [1]
查看完整版本: 请教飞燕,关键词挖掘算法