the hell of CSV
эта пиздец. есть хороший legacy формат CSV (таблица в форме значений, разделенных запятыми)
все просто и красиво.
только вот она бывает в произвольной кодировке, числа бывают с "." и с ",", элементы строки разделяются "," или ";" или “\r”, строки запихиваются в ' или " или вообще не запихиваются в кавычки, кавычки внутри строк превращаются в ", "", \" или кавычки-елочку, числа кстати тоже иногда пихаются в кавычки, а еще переводы строк бывают \r \n \r\n и unicode LS\PS.
вот так-то.
no subject
no subject
писать эвристики не хочется. презентовать пользователю тучку галочек - тоже. тут скорее вопрос UI стоит, чем парсера (он имел тучу галочек с самого начала и любую валидную комбинацию тех настроек распарсить может)
no subject