`
cdwzwd
  • 浏览: 121721 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类

Heritrix-1.14.4爬取数乱编码问题解决方法

阅读更多
最近在使用HeriTrix爬去数据,发现爬取的结果有的是乱码。自己知道是编码问题。就读源码以解决问题。

解决方法
找到heritrix-1.14.4-src\src\java\org\archive\io\ReplayInputStream.java文件

    public void readFullyTo(OutputStream os) throws IOException {
        byte[] buf = new byte[4096];
        int c = read(buf);
        while (c != -1) {
            os.write(buf,0,c);
            c = read(buf);
        }
    }

改为
   
public void readFullyTo(OutputStream os) throws IOException {
        byte[] buf = new byte[4096];
        int c = read(buf); 
        while (c != -1) {
            //在这里可以将"UTF-8"替换成自己需要的编码方式
            String str_changed_by_cdw = new String(buf,0,c,"UTF-8");
	        os.write(str_changed_by_cdw.getBytes());
            c = read(buf);
        }
    }

这样更改之后,爬取的数据就不会出现乱码了!
0
0
分享到:
评论

相关推荐

    heritrix-1.14.4.zip 和 heritrix-1.14.4-src.zip

    此文件中包括heritrix-1.14.4.zip和heritrix-1.14.4-src.zip 其中src是源码,已测试能够集成到eclipse中进行二次开发

    heritrix-1.14.4-src

    heritrix-1.14.4-src绝对是你想要的那一种,找了很长时间啊,和你一起分享

    heritrix-1.14.4

    heritrix-1.14.4-src.zip

    heritrix-1.14.4 for linux

    heritrix-1.14.4-src.tar.gz

    heritrix-1.14.4爬虫框架及源码

    heritrix-1.14.4爬虫框架及源码

    Heritrix-1.14.4源代码

    Heritrix-1.14.4源代码,已经建成了项目。直接导入(import)Eclipse中,即可以直接运行。方便广大渴望学习Heritrix源代码的同学。

    heritrix-1.14.4控制台可执行版本

    近期需要使用heritrix-1.14.4,配了半天才配好,这个是控制台执行版本. 注意:解压到相关目录,之后配置系统环境变量"HERITRIX_HOME"到该解压目录(Java环境已经配置好)。 使用控制台命令启动 : heritrix --admin=...

    网络爬虫Heritrix1.14.4可直接用

    在/Heritrix1/src/org/archive/crawler/Heritrix.java启动之后,访问https://localhost:8089登录admin密码admin直接用

    heritrix-1.14.4-docs.rar

    因为文件大了点 把docs取了出来单独上传 需要的下载一下

    heritrix1.14.4源码包

    heritrix1.14.4的源码包,包含heritrix1.14.4.zip和heritrix1.14.4-src.zip。heritrix是一种开源的网络爬虫,用于爬去互联网中的网页。如何配置和使用heritrix爬虫,请移步:...

    heritrix1.14.4源码+项目

    heritrix1.14.4源码+项目

    heritrix1.14.4(内含src)

    免费,抵制积分下载,免费,抵制积分下载免费,抵制积分下载免费,抵制积分下载免费,抵制积分下载免费,抵制积分下载免费,抵制积分下载免费,抵制积分下载

    heritrix-3.4.0-SNAPSHOT-src.zip

    Heritrix 是一个由 java 开发的、开源的网络爬虫,用户可以使用它来从网上抓取想要的资源。官网下载好像要翻墙,我下下来方便大家使用,这是3.4版本,配合heritrix-3.4.0-SNAPSHOT-dist.zip使用

    heritrix-3.1.0 最新jar包

    heritrix-3.1.0 最新官网jar包。包括heritrix-3.1.0-dist.zip包与heritrix-3.1.0-src.zip包。是爬虫神器

    Heritrix1.14.4(含源码包)

    Heritrix1.14.4安装配置使用包,其中包括源码包。 具体使用方法可参考:http://blog.csdn.net/baalhuo/article/details/52189425

    Heritrix-3.1.0(linux版)

    包含: heritrix-3.1.0-dist.tar.gz heritrix-3.1.0-src.tar.gz 官方文档下载地址

Global site tag (gtag.js) - Google Analytics