まだ重たいCMSをお使いですか?
毎秒1000リクエスト を捌く超高速CMS「adiary

2006/05/31(水)インポータ/エクスポータ

インポータ・エクスポータあれこれ

はてな形式エクスポーターを実装しました。結構苦労しましたが、これの元ソースを突っ込んでも、きちんと表示されるぐらいに変換する(でも*見出しや-のリストなどはそのまま残す)ルーチンを作りました。

結局4~5種類のインポート/エクスポートを作成しましたが、かなり気合い入れてます。どうも他のブログシステムだと入力本文によっては自分自身ですらインポートできなかったり*1、改行を<br>に置換するフラグすらまともに設定してなかったり*2、書式を拡張したせいで一部ツールと互換性なくなってたり*3とか、ものによってはファイルフォーマット(形式)だけ変えて中身そのままってそれ変換って言わないですから。

例えば、tdiary2adiaryコンバータのはてな形式変換ならば、tDiaryの入力スタイルを適切に判断して最も近い形のはてな形式に変換、はてな形式→adiaryインポータでは記法の非互換部分を変換ルーチンで吸収(の山*4)、その他インポーターでは特殊な意味をもつ本文入力をエスケープ処理。

エクスポーターでは『使用しているパーサー』と出力方式によって変換方法を切り替えてます。はてな形式への出力に至っては、adiaryなら互換性の高い部分は元の文章をのこしつつ非互換な部分は部分的にパーサーを通して整形し、tDiary形式ならばtdiary2adiaryに実装されているはてな向けコンバータと同様の処理をして、シンプルパーサーならば、はてな向けの特殊記法のエスケープ処理を噛まして……という具合です。

もっともエスケープ処理ぐらい当たり前の話なんですけど、大半のblogはそれすら……(以下略


一応全部(境界条件にて)デバッグしてますが、完全じゃないので、何かうまく行かない問題があったら遠慮なくどうぞ。あと対応して欲しい形式があったら、エクスポートしたログファイルと一緒にどうぞ。

*1 : Movable Typeの「-----」問題、はてなのUTF8問題など

*2 : はてなのMovable Type形式エクスポート

*3 : Serene BachのJUGEM XML。XMLの要素を追加するのは構わないと思いますが、既に定義されているDATEの書式を変更するのは問題かと……

*4 : はてな記法と似ていますが、adiary標準パーサーはできるだけ例外的な処理をなくすという方針のため、非互換部分が結構あります