我的日常

登录/注册
您现在的位置:论坛 资料库 JAVA开发 > java如何抓取网页
总共48087条微博

动态微博

查看: 1941|回复: 1

java如何抓取网页

[复制链接]

326

主题

72

听众

999

金钱

实习版主

该用户从未签到

优秀版主

跳转到指定楼层
楼主
发表于 2014-11-14 13:20:08 |只看该作者 |倒序浏览
程序逻辑:
从文件config.txt读取url链接,根据url打开输入流,将接收到的网页内容保存到文件。
  1. package com.changying.spider;

  2. import java.io.BufferedReader;
  3. import java.io.File;
  4. import java.io.FileOutputStream;
  5. import java.io.FileReader;
  6. import java.io.IOException;
  7. import java.io.InputStream;
  8. import java.io.OutputStream;
  9. import java.net.URL;

  10. public class Spider {
  11.         public static void main(String[] args) throws IOException {
  12.                 System.out.println(args[0]);
  13.                 System.out.println(args[1]);
  14.                 File config = new File(args[0]);
  15.                 //System.out.println("Hello World!");
  16.                
  17.                 BufferedReader fileReader = new BufferedReader(new FileReader(config));
  18.                 String strUrl = fileReader.readLine();
  19.                 System.out.println(strUrl);
  20.                 URL url = new URL(strUrl);
  21.                 InputStream in = url.openStream();
  22.                 File resultFile = new File(args[1] + "\\url001.html");
  23.                 if (!resultFile.exists()) {
  24.                         resultFile.createNewFile();
  25.                 }
  26.                 //OutputStream result = new FileOutputStream(args[1] + "\\url001.html");
  27.                 OutputStream result = new FileOutputStream(resultFile);
  28.                
  29.                 byte[] buffer = new byte[4096];
  30.                 int bytes_read;
  31.                
  32.                 while ((bytes_read = in.read(buffer)) != -1) {
  33.                         result.write(buffer, 0, bytes_read);
  34.                 }
  35.                 fileReader.close();
  36.                 in.close();
  37.                 result.close();
  38.         }
  39. }
复制代码





科帮网 1、本主题所有言论和图片纯属会员个人意见,与本社区立场无关
2、本站所有主题由该帖子作者发表,该帖子作者与科帮网享有帖子相关版权
3、其他单位或个人使用、转载或引用本文时必须同时征得该帖子作者和科帮网的同意
4、帖子作者须承担一切因本文发表而直接或间接导致的民事或刑事法律责任
5、本帖部分内容转载自其它媒体,但并不代表本站赞同其观点和对其真实性负责
6、如本帖侵犯到任何版权问题,请立即告知本站,本站将及时予与删除并致以最深的歉意
7、科帮网管理员和版主有权不事先通知发贴者而删除本文


JAVA爱好者①群:JAVA爱好者① JAVA爱好者②群:JAVA爱好者② JAVA爱好者③ : JAVA爱好者③

1

主题

0

听众

348

金钱

四袋长老

该用户从未签到

沙发
发表于 2016-05-15 20:49:09 |只看该作者
这也行
回复

使用道具 举报

快速回复
您需要登录后才可以回帖 登录 | 立即注册

   

关闭

站长推荐上一条 /1 下一条

发布主题 快速回复 返回列表 联系我们 官方QQ群 科帮网手机客户端
快速回复 返回顶部 返回列表