• 折腾Python人人爬虫的收获

    [Python]
    post by Holmesian / 2011-8-31 20:22 Wednesday

         晚上折腾Python写人人网爬虫,目标是所有好友的相册和个人资料以及通讯录信息,目前相册抓取借助网上一位TX发现的人人相册的小Bugs已经实现,晚上对两个以前不喜欢用的功能颇有所得,在这里暂且记录一下。

         首先是Python内置的数据库引擎Shelve,Python的数据持久化操作主要有六类:普通文件、...

    阅读全文>>

  • 针对mysql写入的优化设置

    post by Holmesian / 2011-8-31 9:58 Wednesday

    innodb_buffer_pool_size
    如果用Innodb,那么这是一个重要变量。相对于MyISAM来说,Innodb对于buffer size更敏感。MySIAM可能对于大数据量使用默认的key_buffer_size也还好,但Innodb在大数据量时用默认值就感觉在爬了。 Innodb的缓冲池会缓存数据和索引,所以不需要给系统的缓存留空间,如果只用Innodb,可以把这个值设为内存的...

    阅读全文>>

  • Word文档打开出错的解决办法

    post by Holmesian / 2011-8-30 16:19 Tuesday

     刚才隔壁师傅因为一个Word文档的问题向我求救,症状是下载和打开一个word文档的时候会弹出一个错误对话框,如图所示:直接点”不发送“按钮,word关闭;选中“恢复我的工作并重启microsoft office word”此项,再点“不发送”,出现了一个对话框,提示信息意思是word上次启动失败,word这次要以安全模式启动来解决启动中的错误,问是否使用安全模式启动,若选择是,word则进入安全模式。

    阅读全文>>

  • [转]TelexShell – 图形化的Telex

    post by Holmesian / 2011-8-29 22:29 Monday

        Telex 反互联网审查系统是一个由美国密歇根大学开发的新一代反互联网审查的方式。TelexShell是一个用C#写的telex代理(图形界面),运行后直接最小化到系统托盘。

        TelexShell比起Telex方便的地方在于,直接运行即可,不用关心本地代理的参数设置,程序退出后自动还原。不过目前支持的浏览器是IE和Googl...

    阅读全文>>

    附件下载:
    TelexShell.zip 948.42KB
  • Win7沙盘Sandboxie运行程序出错的解决办法

    post by Holmesian / 2011-8-29 22:14 Monday

        因为对Windows的洁癖,基本上绝大部分程序都是放在沙盘里运行,曾几何时发现不少程序在沙盘中运行时会出现类似“应用程序无法正常启动”的错误提示,一开始以为权限不足然而提高沙盘权限甚至允许加载部分驱动之后仍然提示同样的“应用程序无法正常启动”错误。

        偶然间发现会出现类似错误的程序基本上全部都调用了命令行,经查得知原来在Win7系统中由于7月份的...

    阅读全文>>

  • Nginx的高危漏洞

    [Nginx]
    post by Holmesian / 2011-8-26 12:32 Friday
            这个貌似从昨天晚上开始就很热了,主要是针对Nginx+FastCGI组合跑PHP的环境,原因是传递变量不统一(Ngnix在遇到%00空字节时与FastCGI处理不一致,导致可以在图片中嵌入PHP代码然后通过访问××××.gif%00.php来执行其中的php代码)
    受影响的Nginx版本:
    nginx 0.5.*
    nginx 0...

    阅读全文>>

  • 铁路运营车次的常识

    post by Holmesian / 2011-8-22 8:47 Monday
    总的来说,为确保列车车次全路统一性及有关行车设备和信息系统正常运行,列车车次编排仅限于使用大写汉语拼音字母和阿拉伯数字,总位数原则不得超过7位。列车编用车次,旅客列车在全路范围、货物列车在铁路局管内不得重复,旅客列车车次由铁道部确定。季节性、特定时间段开行的动车组、全程客运机车牵引的临时旅客列车,使用相应等级图定车次

    阅读全文>>

  • Python抓取教务处信息

    [Python]
    post by Holmesian / 2011-8-18 11:02 Thursday

            练习使用类、多线程、urlib库的时候写的一个东西,作用是从教务处抓取年级信息、班级信息、学生信息、学生成绩信息等。当时写得有些乱,纯三无产品,不过基本能用且网络好的情况下效率不低,多线程抓取,出错自动重试,需要的TX可以参考或者直接用来抓取数据。

          &n...

    阅读全文>>

    附件下载:
    newjwc-thread.zip 4.16KB