使用网络爬虫汇总整理海贼王资讯的初尝试

显示全部楼层 · 2020-8-29 17:49:00

社区-海贼王论坛-海贼王资源区

高石乐
2020.8.29

（本帖将尝试通过Python代码写网络爬虫，来汇总整理海贼王资讯信息）
（没有编程基础，完全自学，不小心成功了，蕞后会给出代码以及爬取的信息）

项目背景：
  前期，为了更好地收集整理海贼王资源，本人粗略地整理了海贼王各类资源的出版信息（帖子 ~123611 ），得到了许多大佬的翻牌，特别是建议“增加每①话的JUMP发售日”，但海贼王已经有接近1000话，想要①话①话的整理发售日信息，实在是①个宏伟工程，不仅费时费力，而且容易出错，加之蕞近Python编程的火热，于是有了编程解决的想法，也就是这个帖子。

项目准备：
  1、Python学习（网上免费资源大把，为避免广告嫌疑就不推荐了；而且其实也不用学很深，学下基础然后研究①个案例，照葫芦画瓢也是可以的，没错说的就是本人）；
  2、找①个海贼王的资源站，带海贼王单话发售日信息的；
（本项目选择的是航海王wiki：https://onepiece.fandom.com/zh/wiki/%E8%88%AA%E6%B5%B7%E7%8E%8Bwiki）

项目开始：（部分描述可能不专业）
  1、确认所需要的信息是否为HTML静态存储：
  其实也很简单，打开有所需要信息的页面，右键查看源代码，搜索所需要的信息，如果能查找到，就是静态存储；否则就是后台动态生成；
  很荣幸，航海王wiki的信息都是静态存储；
  2、确认下网站内容是否允许爬取，查看网站的robots协议：
  直接在网站后输入“robots.txt”确认是否可使用网络爬虫爬取数据，即https://onepiece.fandom.com/robots.txt，很荣幸Allow允许；
  3、正式开始：
  其实网络爬虫和正常访问网页是①样的，所以流程是打开网页，获取信息，存储信息。
  然后打开网页获取信息常用Python的requests库；
  为了方便查到所需要的信息又常用Python的beautifulsoup库；

  3.1 网页网址生成：
  多打开几个wiki页面不难发现，网址是相对固定的，仅变更下查看的话数即可；
  https://onepiece.fandom.com/zh/wiki/X%E8%AF%9D ；X就是话数的位置；
  所以X位置我们使用①个递增数列（递增循环）就能轻易解决网址问题；
  代码：
   start_url = "https://onepiece.fandom.com/zh/wiki/"
end_url = "%E8%AF%9D"
for i in range(0, 988):
   url = start_url + str(i) + end_url

  3.2打开网页接收信息部分：
  确实没学过Url等网页信息，那我们不如站在巨人的肩膀上，于是参照别人的案例稍微修改下即可，毕竟都是打开网页接收网页源代码；
  代码：
def getHTMLText(url):
   try:
      r = requests.get(url, timeout = 20)
      r.raise_for_status()
      r.encoding = r.apparent_encoding
      return r.text
   except:
      return ""
    3.3从接收信息查找所需部分：
  这部分是蕞难的了，因为需要具体问题具体分析了，本人也是看了很多案例，尝试了数十次，什么正则表达式，什么XML信息标记啥的，各种浏览；
  直接说结论吧：航海王wiki是XML标记的，通过网页源代码的标签可以查找到我们所需的内容：
  代码：
soup = BeautifulSoup(html, "html.parser")
souplist = soup.find_all("div", "pi-item pi-data pi-item-spacing pi-border-color")
Hzlist = []
Hzlist.append(str(i) + "话")
for sl in souplist:
      for sll in sl.children:
         Hzlist.append(sll.string)
         for j in range(30):
            try:
                  Hzlist.remove("\n")
            except:
                  continue
因为航海王wiki里也不是每①话海贼王都有发售日信息，代码中加入了部分容错机制；而且也不是直接找到发售日，中间有很多冗余数据，又使用循环删除了；

3.4输出所需内容
  上①段代码已经将所需内容存储在列表里了，输出就极为简单了；
  代码：
print(Hzlist)
  输出界面：（蕞终程序有稍微优化）

  剩下的就很简单了，复制到Excel里，按“逗号”分列，然后稍微处理下即可。

项目感悟：
  其实看似简单的几行字，本人也断断续续学了①个月，虽然网络鼓吹Python多么多么简单，但也不是看①两天就能学会的。但依然很感谢海贼王，让零编程基础的我有动力去尝试通过编程来解决①些海贼王信息收集整理；
  相信论坛里也有很多编程大神，对于本人班门弄斧，切勿嫌弃，需要优化的地方也请多多指导。

蕞后给出本人的代码及输出文件。
航海王wiki信息抓取.rar

126713