批量抓取百度音乐掌门的歌词文件

May/15th 2010

前段时间心血来潮，想搞个歌词库，于是网上查了一下，发现百度的歌词文件是连续的数字作为文件名（方便啊）。于是就写了个程序批量搞百度的歌词。

程序使用socket方式模拟浏览器去取百度的歌词，速度优化到很快了。我目前已经下载了百度的91083份歌词啦

百度的歌词文件虽然是数字，但是不是完全连续，中间有些数字是没有歌词的。所以程序显示no的时候，不要觉得奇怪哈。

用法：在命令行下跑。输入：php baidu.php。当然，一次肯定是不可能把百度的所有歌词下载下来，所以要分多次。每次下载的起始数字和结尾数字请打开baidu.php编辑。

提醒：下的太快了百度会封你IP。不过过一会就又好了。

5459 read 9 comment(s)

vivi 2010年05月15号 08:59 回复

不错去试一试牛人

宇博 2010年05月15号 09:13 回复

天哪，这纯净洁白的博客界面 ....

ttwan 2010年05月19号 20:33 回复

是个好东西，哥们！

不过抓下来的这些歌词，怎么利用呢？

IRC文件怎么读取？

longbill 2010年05月19号 21:09 回复

@ttwan lrc文件是文本文件。用记事本打开就可以了

ttwan 2010年05月20号 22:46 回复

@longbill 文本文件打开了，这些文件怎么倒入到数据库里面？
或者怎么利用啊！

longbill 2010年05月20号 23:03 回复

@ttwan 这个就要看你自己怎么用啦。很多用途的

ttwan 2010年05月25号 21:27 回复

这些文件怎么样导入数据库？
望兄弟教我！

阿斯顿 2010年07月09号 14:05 回复

牛

longbill 2010年07月28号 23:12 回复

@ttwan 这个很简单啊，用opendir函数列举歌词目录，然后读取每个文件内容到一个变量，然后再存到数据库～～

添加新的评论

称呼:*
邮件:*
网站:
内容:

刘春龙的博客