炼数成金 大数据网络技术
订阅

网络技术

Li-Fi:光传输革命或创造60亿美元市场
Li-Fi:光传输革命或创造60亿美元市场
在《圣经·创世纪》中,上帝说要有光,之后就开始创造世界。而在爱丁堡大学的德国科学家哈拉德·哈斯眼里,光的本身,就是一个携带大量信息的世界。  他对这个光的世界是如此地珍惜,以至于在下午4点,他的办公室 ...
前淘宝工程师谈12306:做它比做淘宝难
前淘宝工程师谈12306:做它比做淘宝难
如果把12306外包给IBM或者阿里巴巴来做,能否比现在做得好?如果是以前,小编肯定会回答:是。因为我们始终认为,一个年投入超3亿元的卖火车票网站,没有什么理由做不好吧?其实不光是小编这样认为,包括众多媒体, ...
无线路由器一、二、三根天线有什么区别?
无线路由器一、二、三根天线有什么区别?
“天线越多覆盖越广,天线越多信号越强,总之天线越多的无线路由器就越好”——觉得很“常识”的朋友可以继续往下看正文了,觉得小编弱爆了小编是那个什么的估计也不会点进来。还是那句话,我们的干货帖大多数是为了 ...
HTML 5定稿了?背后还是那场闹剧
HTML 5定稿了?背后还是那场闹剧
HTML 5 虽然只是一个技术标准,但是眼下更多承载着颠覆苹果与谷歌移动生态的理想。我并不想单纯从技术角度谈论 HTML5 的现实处境,因为技术从来不会成为发展的绝对瓶颈,尤其是 HTML 5 本身就不存在任何重大的技术难 ...
打破记录:多芯光纤数据传输速度可达每秒 255TB
打破记录:多芯光纤数据传输速度可达每秒 255TB
埃因霍芬理工大学和中佛罗里达大学的科学家研制了一种新型光纤,它一秒内可以传输多达 5000 张 DVD 容量的数据——是先前最快记录的 6 倍。这一重大突破将使我们在未来几年内实现每秒 PB(1000TB)级传输成为可能, ...
HTML5 赶走APP的野蛮人
HTML5 赶走APP的野蛮人
2007年W3C(万维网联盟)立项HTML5,直至2014年10月底,这个长达八年的规范终于正式封稿。过去这些年,HTML5颠覆了PC互联网的格局,优化了移动互联网的体验,接下来,HTML5将颠覆原生App世界。这听起来有点危言耸听, ...
三星新技术使WiFi提速5倍:每秒传输575MB数据
三星新技术使WiFi提速5倍:每秒传输575MB数据
新浪科技讯 北京时间10月13日早间消息,三星宣布,正在开发一种60GHz的WiFi技术,从而实现理论传输速率和实际速率的一致。关于WiFi技术,由于受墙壁和其他家电的干扰,目前的理论速率和实际速率之间总是存在差距。用 ...
网络爬虫与Web安全
网络爬虫与Web安全
网络爬虫概述网络爬虫(Web Crawler),又称网络蜘蛛(Web Spider)或网络机器人(Web Robot),是一种按照一定的规则自动抓取万维网资源的程序或者脚本,已被广泛应用于互联网领域。搜索引擎使用网络爬虫抓取Web网页、文档 ...
CSDN爬虫专题
CSDN爬虫专题
爬虫 讲义教程叶顺平:网页搜索爬虫时效性系统摘要:该文档来自12月30日CSDN云计算俱乐部的活动,宜搜科技搜索部架构师爬虫组负责人叶顺平带来了题为“网页搜索爬虫时效性系统”的分享,包括时效性系统的主要目标、架 ...
Java爬虫的一些总结和心得
Java爬虫的一些总结和心得
关于Java爬虫的一些总结和心得,最近做了很多关于爬虫到项目,写点感想,以后查询1.请求http连接,并保存内容,catch不同到exception进行反爬处理,我一般采用正则匹配,这比较适用于爬取数据不多,网站只返回HTML内 ...
用python爬虫抓站的一些技巧总结
用python爬虫抓站的一些技巧总结
学用python也有3个多月了,用得最多的还是各类爬虫脚本:写过抓代理本机验证的脚本,写过在discuz论坛中自动登录自动发贴的脚本,写过自动收邮件的脚本,写过简单的验证码识别的脚本,本来想写google music的抓取脚本 ...
Python BeautifulSoup简单笔记
Python BeautifulSoup简单笔记
Beautiful Soup 是用 Python 写的一个 HTML/XML 的解析器,它可以很好的处理不规范标记并生成剖析树。通常用来分析爬虫抓取的web文档。对于 不规则的 Html文档,也有很多的补全功能,节省了开发者的时间和精力。Beau ...
Heritrix使用小结
Heritrix使用小结
1. Heritrix 简介 Heritrix是一个专门为互联网上的网页进行存档而开发的网页检索器。它使用Java编写并且完全开源。它主要的用户界面可以通过一个web流量器来访问并通过它来控制检索器的行为,另外,它还有一个命令行 ...
基于Nutch的爬虫分析
基于Nutch的爬虫分析
1.创建一个新的WebDb (admin db -create);2.将抓取起始URLs写入WebDB中 (inject); 3.根据WebDB生成fetchlist并写入相应的segment(generate); 4.根据fetchlist中的URL抓取网页 (fetch).;5.根据抓取网页更新WebDb ...
Scrapy轻松定制网络爬虫
Scrapy轻松定制网络爬虫
网络爬虫(Web Crawler, Spider)就是一个在网络上乱爬的机器人。当然它通常并不是一个实体的机器人,因为网络本身也是虚拟的东西,所以这个“机器人”其实也就是一段程序,并且它也不是乱爬,而是有一定目的的,并且 ...

热门频道

  • 大数据
  • 商业智能
  • 量化投资
  • 科学探索
  • 创业

即将开课

社区热帖

     

    GMT+8, 2018-12-17 14:22 , Processed in 0.176817 second(s), 16 queries .