炼数成金 大数据网络技术
订阅

网络技术

HTML5 赶走APP的野蛮人
HTML5 赶走APP的野蛮人
2007年W3C(万维网联盟)立项HTML5,直至2014年10月底,这个长达八年的规范终于正式封稿。过去这些年,HTML5颠覆了PC互联网的格局,优化了移动互联网的体验,接下来,HTML5将颠覆原生App世界。这听起来有点危言耸听, ...
三星新技术使WiFi提速5倍:每秒传输575MB数据
三星新技术使WiFi提速5倍:每秒传输575MB数据
新浪科技讯 北京时间10月13日早间消息,三星宣布,正在开发一种60GHz的WiFi技术,从而实现理论传输速率和实际速率的一致。关于WiFi技术,由于受墙壁和其他家电的干扰,目前的理论速率和实际速率之间总是存在差距。用 ...
网络爬虫与Web安全
网络爬虫与Web安全
网络爬虫概述网络爬虫(Web Crawler),又称网络蜘蛛(Web Spider)或网络机器人(Web Robot),是一种按照一定的规则自动抓取万维网资源的程序或者脚本,已被广泛应用于互联网领域。搜索引擎使用网络爬虫抓取Web网页、文档 ...
CSDN爬虫专题
CSDN爬虫专题
爬虫 讲义教程叶顺平:网页搜索爬虫时效性系统摘要:该文档来自12月30日CSDN云计算俱乐部的活动,宜搜科技搜索部架构师爬虫组负责人叶顺平带来了题为“网页搜索爬虫时效性系统”的分享,包括时效性系统的主要目标、架 ...
Java爬虫的一些总结和心得
Java爬虫的一些总结和心得
关于Java爬虫的一些总结和心得,最近做了很多关于爬虫到项目,写点感想,以后查询1.请求http连接,并保存内容,catch不同到exception进行反爬处理,我一般采用正则匹配,这比较适用于爬取数据不多,网站只返回HTML内 ...
用python爬虫抓站的一些技巧总结
用python爬虫抓站的一些技巧总结
学用python也有3个多月了,用得最多的还是各类爬虫脚本:写过抓代理本机验证的脚本,写过在discuz论坛中自动登录自动发贴的脚本,写过自动收邮件的脚本,写过简单的验证码识别的脚本,本来想写google music的抓取脚本 ...
Python BeautifulSoup简单笔记
Python BeautifulSoup简单笔记
Beautiful Soup 是用 Python 写的一个 HTML/XML 的解析器,它可以很好的处理不规范标记并生成剖析树。通常用来分析爬虫抓取的web文档。对于 不规则的 Html文档,也有很多的补全功能,节省了开发者的时间和精力。Beau ...
Heritrix使用小结
Heritrix使用小结
1. Heritrix 简介 Heritrix是一个专门为互联网上的网页进行存档而开发的网页检索器。它使用Java编写并且完全开源。它主要的用户界面可以通过一个web流量器来访问并通过它来控制检索器的行为,另外,它还有一个命令行 ...
基于Nutch的爬虫分析
基于Nutch的爬虫分析
1.创建一个新的WebDb (admin db -create);2.将抓取起始URLs写入WebDB中 (inject); 3.根据WebDB生成fetchlist并写入相应的segment(generate); 4.根据fetchlist中的URL抓取网页 (fetch).;5.根据抓取网页更新WebDb ...
Scrapy轻松定制网络爬虫
Scrapy轻松定制网络爬虫
网络爬虫(Web Crawler, Spider)就是一个在网络上乱爬的机器人。当然它通常并不是一个实体的机器人,因为网络本身也是虚拟的东西,所以这个“机器人”其实也就是一段程序,并且它也不是乱爬,而是有一定目的的,并且 ...
如何设计爬虫架构
如何设计爬虫架构
设计爬虫架构一个设计良好的爬虫架构必须满足如下需求。(1)分布式:爬虫应该能够在多台机器上分布执行。(2)可伸缩性:爬虫结构应该能够通过增加额外的机器和带宽来提高抓取速度。(3)性能和有效性:爬虫系统必须有效地 ...
PHP的爬虫实现
PHP的爬虫实现
README:一个能向指定邮箱推送所关心新闻内容的插件,测试环境:LAMP+Chrome/Firefox,分下面几个步骤实现:1.获取目标网站源代码:实现方法:PHP的curl类ubuntu下的安装方法:#sudo apt-get install curl libcurl3 lib ...
ObjC的爬虫实现
ObjC的爬虫实现
在开发项目的过程,很多情况下我们需要利用互联网上的一些数据,在这种情况下,我们可能要写一个爬虫来爬我们所需要的数据。一般情况下都是利用正则表达式来匹配Html,获取我们所需要的数据。一般情况下分以下三步。1 ...
C#的爬虫实现(二)
C#的爬虫实现(二)
3. 保存页面文件这一部分可简单可复杂,如果只要简单地把HTML代码全部保存下来的话,直接存文件就行了。 1 private void SaveContents(string html, string url) 2 { 3 if (string.IsNullOrEmpty(html)) //判断htm ...
C#的爬虫实现(一)
C#的爬虫实现(一)
网络爬虫在信息检索与处理中有很大的作用,是收集网络信息的重要工具。接下来就介绍一下爬虫的简单实现。爬虫的工作流程如下爬虫自指定的URL地址开始下载网络资源,直到该地址和所有子地址的指定资源都下载完毕为止。 ...

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

社区热帖

     

    GMT+8, 2018-10-19 15:54 , Processed in 0.099816 second(s), 16 queries .